arXiv · 23.06.2026 ·Машинное обучение

FlowPipe: автоматизация пайплайнов подготовки данных с помощью GFlowNets и LLM

Исследователи представили FlowPipe — новый метод автоматического построения пайплайнов подготовки данных для машинного обучения. Система объединяет генеративные потоковые сети (GFlowNets) с возможностями LLM для навигации в сложном комбинаторном пространстве операторов очистки и трансформации. Подход позволяет эффективно находить оптимальные последовательности преобразований, минимизируя затраты на дорогостоящую оценку качества данных на каждом этапе обучения модели.

Процесс подготовки данных традиционно является «узким местом» в ML-проектах из-за огромного количества возможных комбинаций операций. Предыдущие методы, такие как Multi-DQN, сталкивались с трудностями при масштабировании и поиске оптимальных стратегий в условиях разреженного вознаграждения. FlowPipe решает эту проблему, используя LLM для генерации осмысленных предложений по выбору операторов, что значительно сужает пространство поиска и ускоряет сходимость алгоритма.

Использование GFlowNets позволяет системе обучаться на распределениях вероятностей последовательностей, что делает процесс генерации пайплайнов более гибким и адаптивным к различным типам входных таблиц. В отличие от жестких эвристических подходов, FlowPipe демонстрирует способность к обобщению, предлагая более качественные цепочки трансформаций, которые напрямую влияют на итоговую точность моделей машинного обучения.

Ключевые факты

FlowPipe использует генеративные потоковые сети (GFlowNets) для оптимизации выбора операторов в пайплайнах данных.
Интеграция LLM позволяет системе эффективно работать с комбинаторным пространством, сокращая количество итераций поиска.
Метод направлен на автоматизацию очистки данных и генерации признаков, заменяя ручное проектирование пайплайнов.
Система демонстрирует превосходство над существующими SOTA-решениями, такими как Multi-DQN, в задачах автоматической подготовки данных.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Исследования и наука DRFLOW: новый бенчмарк для прогнозирования персонализированных рабочих процессов Исследователи представили новый бенчмарк DRFLOW, предназначенный для оценки способности ИИ-агентов прогнозировать персонализированные рабочие процессы. В отличие от существующих систем, которые в основном фокусируются на генерации отчётов и сводок, DRFLOW направлен на решение более сложных задач, таких как определение последовательности конкретных действий для выполнения определённых задач. arXiv · Исследования и наука Новая архитектура для ускорения генеративного улучшения речи Исследователи представили архитектуру для улучшения качества речи, основанную на методе Flow Matching. В отличие от традиционных U-Net моделей, новый подход исключает пропускные соединения (skip-connections) и использует выравнивание латентных представлений. Это позволяет значительно сократить количество итераций при генерации, обеспечивая высокую скорость обработки, необходимую для работы систем в режиме реального времени. Hacker News · Инфраструктура для агентов SchemaFlow: инструмент для анализа изменений в базах данных и генерации SQL SchemaFlow — это инструмент, разработанный для автоматизации анализа изменений в базах данных, генерации SQL-запросов и установки ограничений на их выполнение. Он интегрируется с OpenAI и предоставляет API для работы с базами данных, что делает его полезным для разработчиков ИИ-агентов, которым необходимо взаимодействовать с базами данных. arXiv · Машинное обучение Ускорение численного моделирования потоков с помощью графовых нейросетей Исследователи представили новый метод ускорения алгебраических многосеточных решателей (AMG), используемых для решения уравнения Пуассона при моделировании несжимаемых потоков. Традиционные линейные методы часто сталкиваются с вычислительными сложностями из-за неоднородности расчетных сеток, что делает их узким местом в инженерных расчетах. MarkTechPost · Данные и инжиниринг Построение пайплайнов прогнозирования временных рядов с TimeCopilot Разработан комплексный рабочий процесс для прогнозирования временных рядов с использованием инструмента TimeCopilot. Система объединяет классические статистические методы, современные фундаментальные модели и автоматизированные алгоритмы обнаружения аномалий. Архитектура позволяет обрабатывать как реальные данные, например, статистику авиаперевозок, так и синтетические ряды с искусственно внедренными выбросами. Hacker News · Оркестрация агентов Wayfinder: маршрутизация промптов без использования LLM Инструмент Wayfinder предлагает альтернативный подход к маршрутизации запросов в системах на базе больших языковых моделей. Вместо использования тяжеловесных LLM для классификации входящих промптов и выбора подходящего исполнителя, проект применяет легковесные алгоритмы машинного обучения. Это позволяет снизить задержки и сократить расходы на инфраструктуру, исключая лишние вызовы API для промежуточных задач. arXiv · Машинное обучение FlowEdit: адаптация TTS-систем без переобучения моделей Исследователи представили метод FlowEdit, позволяющий корректировать произношение в системах синтеза речи (TTS) на базе flow-matching без необходимости дообучения весов модели. Современные генеративные системы синтеза показывают высокое качество в режиме zero-shot, однако они остаются статичными после развертывания. Это приводит к устойчивым ошибкам при озвучивании редких имен собственных или специфических терминов, отсутствующих в обучающей выборке. arXiv · Инференс и железо Как снизить задержки в системах с потоковыми данными Исследователи из MIT и Google предложили новый подход к обработке потоковых данных в системах машинного обучения, который может существенно снизить задержки и нагрузку на серверы. В статье, опубликованной на arXiv, они описывают метод, который отделяет процесс инференса от обновления состояния, используя вероятностное прореживание (probabilistic thinning). arXiv · Машинное обучение Адаптивный ML-фреймворк для оптимизации траекторий БПЛА в сетях 6G Исследователи представили адаптивный фреймворк машинного обучения, предназначенный для оптимизации траекторий беспилотных летательных аппаратов (БПЛА), выполняющих роль открытых радиомодулей (O-RU) в сетях 6G. Решение позволяет дронам эффективно адаптироваться к динамическим условиям среды без необходимости полного переобучения моделей при смене сценариев, что критически важно для обеспечения стабильного покрытия в масштабируемых сотовых сетях будущего. arXiv · Машинное обучение Алгоритм Pareto Q-Learning для многокритериального обучения с подкреплением Исследователи представили новый алгоритм Pareto Q-Learning with Reward Machines (PQLRM), предназначенный для решения задач обучения с подкреплением в условиях сложной структуры вознаграждений. Метод объединяет принципы Pareto Q-Learning, позволяющие аппроксимировать фронт Парето для векторных оценок Q-функций, с возможностями Reward Machines, которые позволяют декомпозировать задачи на основе формальных спецификаций.

← Все материалы