arXiv · 16.06.2026 ·Исследования и наука

DRFLOW: новый бенчмарк для прогнозирования персонализированных рабочих процессов

Исследователи представили новый бенчмарк DRFLOW, предназначенный для оценки способности ИИ-агентов прогнозировать персонализированные рабочие процессы. В отличие от существующих систем, которые в основном фокусируются на генерации отчётов и сводок, DRFLOW направлен на решение более сложных задач, таких как определение последовательности конкретных действий для выполнения определённых задач.

Например, вместо того чтобы просто суммировать бюджетные политики, агент должен уметь определять шаги, необходимые для их реализации. Это особенно важно для корпоративных задач, где важна не только информация, но и её практическое применение.

Бенчмарк включает в себя разнообразные сценарии, которые требуют от агентов не только понимания контекста, но и способности планировать и выполнять последовательные действия. Исследователи надеются, что DRFLOW поможет улучшить разработку ИИ-агентов, способных эффективно решать сложные задачи в реальных условиях.

Работа опубликована на arXiv и доступна для дальнейшего изучения и применения в исследованиях и разработках в области ИИ.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Оркестрация агентов QodFlow: Kanban-доска для управления ИИ-агентами через MCP Команда QodFlow представила инструмент, который позволяет ИИ-агентам взаимодействовать с Kanban-досками через протокол MCP (Multi-Agent Communication Protocol). Это решение может стать важным шагом в интеграции агентов в рабочие процессы, где требуется визуализация и управление задачами. Microsoft Research · Память и RAG Data Formulator 0.7: AI-агенты для аналитики корпоративных данных Microsoft Research представила обновлённую версию Data Formulator 0.7, инструмента для AI-аналитики корпоративных данных. Платформа позволяет командам данных интегрировать большие объёмы данных в рабочую среду, где AI-агенты помогают исследовать, анализировать и визуализировать данные для получения практических выводов. Hacker News · Инфраструктура для агентов Flow: новый язык для оптимизации пайплайнов данных и сокращения токенов LLM Разработчики представили Flow — специализированный язык для построения пайплайнов обработки данных, ориентированный на минимизацию затрат при работе с большими языковыми моделями. Инструмент позволяет оптимизировать передачу контекста, что обеспечивает снижение потребления токенов в среднем на 33% без потери качества обработки данных, что критически важно для масштабируемых агентных систем и сложных RAG-архитектур. arXiv · Оценка и бенчмарки Новый фреймворк для оценки автономного поиска моделей ИИ-агентами Исследователи представили методологию для систематической оценки того, как ИИ-агенты занимаются автономным моделированием данных. Поскольку поведение агентов стохастично и адаптивно, традиционные бенчмарки не дают полной картины. Новый подход, основанный на принципах экспериментального дизайна, позволяет количественно измерить процесс «открытия» моделей, обеспечивая более глубокое понимание того, как агенты справляются с задачами анализа данных в условиях неопределенности. arXiv · Оркестрация агентов CUGA FLO: новый подход к интеграции ИИ-агентов в legacy-процессы Исследователи представили концепцию «process harness» — механизм для внедрения агентных возможностей в существующие бизнес-процессы без замены базовых движков автоматизации. Система CUGA FLO создает управляемый политиками агентный слой поверх детерминированных рабочих процессов, позволяя ИИ перехватывать контрольные точки для принятия решений, адаптации и мониторинга, сохраняя при этом надежность традиционной инфраструктуры исполнения задач. arXiv · Инференс и железо Как снизить задержки в системах с потоковыми данными Исследователи из MIT и Google предложили новый подход к обработке потоковых данных в системах машинного обучения, который может существенно снизить задержки и нагрузку на серверы. В статье, опубликованной на arXiv, они описывают метод, который отделяет процесс инференса от обновления состояния, используя вероятностное прореживание (probabilistic thinning). Hacker News · Инфраструктура для агентов BoundFlow: open-source control plane для управления ИИ-агентами BoundFlow — это open-source решение, представляющее собой control plane для оркестрации и управления жизненным циклом ИИ-агентов. Инструмент позволяет разработчикам централизованно управлять конфигурациями, отслеживать выполнение задач и контролировать потоки данных между различными агентными системами, обеспечивая прозрачность и стандартизацию процессов в сложных распределенных архитектурах. arXiv · Машинное обучение FlowPipe: автоматизация пайплайнов подготовки данных с помощью GFlowNets и LLM Исследователи представили FlowPipe — новый метод автоматического построения пайплайнов подготовки данных для машинного обучения. Система объединяет генеративные потоковые сети (GFlowNets) с возможностями LLM для навигации в сложном комбинаторном пространстве операторов очистки и трансформации. Подход позволяет эффективно находить оптимальные последовательности преобразований, минимизируя затраты на дорогостоящую оценку качества данных на каждом этапе обучения модели. Hugging Face - Blog · Другое Direct Preference Optimization за пределами чатботов Исследователи из Dharma AI представили новый подход к Direct Preference Optimization (DPO), который выходит за рамки традиционных чатботов. В статье на Hugging Face они демонстрируют, как DPO может быть применён для улучшения поведения ИИ-агентов в более сложных сценариях, включая многозадачные и интерактивные системы. Hacker News · Оценка и бенчмарки FlowerBench: новый стандарт оценки ИИ-агентов в корпоративных задачах Представлен FlowerBench — специализированный бенчмарк для оценки производительности ИИ-агентов в реальных корпоративных сценариях. В отличие от академических тестов, он фокусируется на выполнении сложных многошаговых процессов, требующих взаимодействия с внешними системами, управления состоянием и обработки ошибок. Инструмент позволяет измерять эффективность агентных систем в условиях, максимально приближенных к реальной бизнес-среде, где важна надежность и точность выполнения инструкций.

← Все материалы