Исследователи представили ScholarQuest — специализированный бенчмарк для оценки работы ИИ-агентов, специализирующихся на поиске и анализе научной литературы. В отличие от стандартных тестов, этот инструмент имитирует реальные условия работы в открытых академических базах данных, где агент должен не просто найти документ по ключевым словам, а совершить итеративный поиск, соответствующий сложным исследовательским намерениям пользователя.

Система опирается на таксономический подход, который позволяет систематизировать запросы по различным научным дисциплинам и типам задач. Это дает возможность объективно измерить, насколько эффективно модель справляется с многошаговым поиском, фильтрацией релевантных источников и уточнением стратегии поиска на основе промежуточных результатов. Такой подход критически важен для разработки автономных систем, способных поддерживать научную деятельность.

Создание ScholarQuest продиктовано нехваткой инструментов для тестирования агентных систем в динамических средах. Существующие методы оценки часто ограничены статичными наборами данных, которые не отражают специфику академического поиска. Новый бенчмарк предоставляет стандартизированную среду для проверки того, как ИИ-агенты справляются с неопределенностью, необходимостью глубокого анализа контекста и проверкой достоверности найденных материалов.