Исследователи представили FlowPipe — новый метод автоматического построения пайплайнов подготовки данных для машинного обучения. Система объединяет генеративные потоковые сети (GFlowNets) с возможностями LLM для навигации в сложном комбинаторном пространстве операторов очистки и трансформации. Подход позволяет эффективно находить оптимальные последовательности преобразований, минимизируя затраты на дорогостоящую оценку качества данных на каждом этапе обучения модели.
Процесс подготовки данных традиционно является «узким местом» в ML-проектах из-за огромного количества возможных комбинаций операций. Предыдущие методы, такие как Multi-DQN, сталкивались с трудностями при масштабировании и поиске оптимальных стратегий в условиях разреженного вознаграждения. FlowPipe решает эту проблему, используя LLM для генерации осмысленных предложений по выбору операторов, что значительно сужает пространство поиска и ускоряет сходимость алгоритма.
Использование GFlowNets позволяет системе обучаться на распределениях вероятностей последовательностей, что делает процесс генерации пайплайнов более гибким и адаптивным к различным типам входных таблиц. В отличие от жестких эвристических подходов, FlowPipe демонстрирует способность к обобщению, предлагая более качественные цепочки трансформаций, которые напрямую влияют на итоговую точность моделей машинного обучения.
Ключевые факты
- FlowPipe использует генеративные потоковые сети (GFlowNets) для оптимизации выбора операторов в пайплайнах данных.
- Интеграция LLM позволяет системе эффективно работать с комбинаторным пространством, сокращая количество итераций поиска.
- Метод направлен на автоматизацию очистки данных и генерации признаков, заменяя ручное проектирование пайплайнов.
- Система демонстрирует превосходство над существующими SOTA-решениями, такими как Multi-DQN, в задачах автоматической подготовки данных.