Исследователи представили AGORA — новый бенчмарк для оценки способности ИИ-агентов работать с неструктурированными корпоративными архивами. В отличие от стандартных тестов, AGORA фокусируется на поиске разрозненных данных в больших массивах документов, требуя от моделей не просто извлечения информации, но и согласования противоречивых терминов, единиц измерения и временных меток для формирования итогового ответа.

Современные LLM всё чаще внедряются в бизнес-процессы для автоматизации работы с внутренней документацией. Однако большинство существующих тестов проверяют лишь базовые навыки чтения, игнорируя сложности реальных рабочих сред, где данные распределены по множеству файлов разного формата. AGORA имитирует именно такие условия, заставляя агентов демонстрировать навыки глубокого поиска и логического синтеза в условиях «зашумленных» архивов.

Разработка направлена на устранение разрыва между лабораторными результатами моделей и их реальной эффективностью в офисных задачах. Бенчмарк оценивает способность агента находить редкие доказательства в больших коллекциях файлов и выполнять вычисления на основе найденных данных, что критически важно для автоматизации аналитики, финансовой отчетности и управления внутренними знаниями компаний.

Ключевые факты

  • AGORA специализируется на «архивно-обоснованном рассуждении» (archive-grounded reasoning) в корпоративной среде.
  • Тест проверяет навыки поиска разрозненных данных в больших и неструктурированных коллекциях файлов.
  • Бенчмарк учитывает необходимость нормализации противоречивых терминов, единиц измерения и временных конвенций.
  • Основная цель — оценка способности агентов выполнять сложные вычисления на основе данных, распределенных по множеству документов.