Автор блога Zamechek продемонстрировал эффективный метод расширения наборов данных с помощью LLM, названный «ситом». Начав всего с 12 имен, алгоритм итеративно находил новые сущности, проверяя их на соответствие заданным критериям. Этот подход позволяет автоматизировать сбор специфических списков, минимизируя ручную работу и обеспечивая высокую точность фильтрации данных при минимальных исходных ресурсах.
Суть метода заключается в создании петли обратной связи, где модель не просто генерирует варианты, а выступает в роли классификатора, отсеивающего шум. В процессе работы автор использовал промпты, которые заставляли модель анализировать контекст и подтверждать принадлежность найденных объектов к целевой категории. Такой подход превращает LLM из генератора контента в инструмент для дата-инжиниринга, способный расширять узкие выборки до значимых объемов.
Техника «сита» особенно полезна для задач, где требуется собрать структурированные данные по редким или специфическим темам, для которых нет готовых датасетов. Вместо того чтобы полагаться на случайный поиск, система последовательно «просеивает» потенциальные источники, постепенно увеличивая базу знаний. Это снижает риск галлюцинаций модели за счет строгой верификации каждого нового элемента на каждом этапе итерации.
Ключевые факты
- Исходная выборка состояла всего из 12 имен, которые послужили «зерном» для дальнейшего поиска.
- Метод «сита» предполагает итеративный процесс: генерация кандидатов, их проверка моделью и добавление валидных результатов в базу.
- Использование LLM в качестве фильтра позволяет автоматизировать сбор данных, которые сложно найти через стандартные поисковые запросы.
- Подход демонстрирует высокую эффективность при работе с узкоспециализированными темами, где требуется высокая точность классификации сущностей.