Исследователи представили новый бенчмарк, предназначенный для оценки способности нейросетей справляться с комплексной интеллектуальной работой. В отличие от стандартных тестов, проверяющих знание фактов или написание кода, этот инструмент имитирует реальные рабочие процессы, требующие многоэтапного планирования, анализа контекста и принятия решений. Результаты показали, что даже самые передовые языковые модели демонстрируют крайне низкие показатели в таких условиях.
Согласно полученным данным, современные ИИ-системы способны полностью решить лишь 3% предложенных задач. Основные трудности возникают при необходимости удерживать долгосрочную логическую цепочку, работать с разрозненными источниками данных и корректировать стратегию при изменении вводных параметров. Модели часто допускают ошибки в последовательности действий, что делает их использование в автономном режиме для сложных бизнес-процессов преждевременным.
Авторы исследования подчеркивают, что текущие методы обучения и оценки моделей смещены в сторону простых запросов, которые не отражают специфику профессиональной деятельности. Полученные результаты указывают на разрыв между способностью ИИ генерировать связный текст и его реальной эффективностью в качестве инструмента для решения прикладных задач. Этот бенчмарк задает новый стандарт для измерения прогресса в области агентных систем и их пригодности для автоматизации интеллектуального труда.
