Исследователи представили новый бенчмарк DRFLOW, предназначенный для оценки способности ИИ-агентов прогнозировать персонализированные рабочие процессы. В отличие от существующих систем, которые в основном фокусируются на генерации отчётов и сводок, DRFLOW направлен на решение более сложных задач, таких как определение последовательности конкретных действий для выполнения определённых задач.

Например, вместо того чтобы просто суммировать бюджетные политики, агент должен уметь определять шаги, необходимые для их реализации. Это особенно важно для корпоративных задач, где важна не только информация, но и её практическое применение.

Бенчмарк включает в себя разнообразные сценарии, которые требуют от агентов не только понимания контекста, но и способности планировать и выполнять последовательные действия. Исследователи надеются, что DRFLOW поможет улучшить разработку ИИ-агентов, способных эффективно решать сложные задачи в реальных условиях.

Работа опубликована на arXiv и доступна для дальнейшего изучения и применения в исследованиях и разработках в области ИИ.