arXiv · 18.06.2026 ·Оценка и бенчмарки

Представлен бенчмарк ScholarQuest для оценки ИИ-агентов в поиске научных публикаций

Исследователи представили ScholarQuest — специализированный бенчмарк для оценки работы ИИ-агентов, специализирующихся на поиске и анализе научной литературы. В отличие от стандартных тестов, этот инструмент имитирует реальные условия работы в открытых академических базах данных, где агент должен не просто найти документ по ключевым словам, а совершить итеративный поиск, соответствующий сложным исследовательским намерениям пользователя.

Система опирается на таксономический подход, который позволяет систематизировать запросы по различным научным дисциплинам и типам задач. Это дает возможность объективно измерить, насколько эффективно модель справляется с многошаговым поиском, фильтрацией релевантных источников и уточнением стратегии поиска на основе промежуточных результатов. Такой подход критически важен для разработки автономных систем, способных поддерживать научную деятельность.

Создание ScholarQuest продиктовано нехваткой инструментов для тестирования агентных систем в динамических средах. Существующие методы оценки часто ограничены статичными наборами данных, которые не отражают специфику академического поиска. Новый бенчмарк предоставляет стандартизированную среду для проверки того, как ИИ-агенты справляются с неопределенностью, необходимостью глубокого анализа контекста и проверкой достоверности найденных материалов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Оценка и бенчмарки UniClawBench: новый стандарт оценки проактивных ИИ-агентов в реальных задачах Исследователи представили UniClawBench — комплексный бенчмарк для оценки проактивных ИИ-агентов, работающих с реальными инструментами. В отличие от существующих тестов, ограниченных изолированными средами, UniClawBench фокусируется на многошаговых сценариях, требующих от модели самостоятельной инициативы, планирования и взаимодействия с внешними сервисами в динамических условиях, что лучше отражает реальную эффективность агентов в повседневных задачах. Hacker News · Оценка и бенчмарки Бенчмарк для оценки эффективности ИИ-агентов при навигации по кодовой базе Проект «Is grep enough?» представляет собой открытый бенчмарк для оценки способности ИИ-агентов ориентироваться в сложных репозиториях. Исследование сравнивает эффективность простых инструментов поиска, таких как grep, с продвинутыми агентными методами навигации. Цель проекта — определить, насколько современные LLM способны самостоятельно находить нужные фрагменты кода для решения задач, не полагаясь на избыточные контекстные данные. Microsoft Research · Память и RAG SocialReasoning-Bench: как ИИ-агенты действуют в интересах пользователей Исследователи из Microsoft представили SocialReasoning-Bench — новый бенчмарк, который оценивает способность ИИ-агентов действовать в интересах пользователей. В ходе тестирования различных моделей выяснилось, что хотя агенты демонстрируют компетентность в выполнении задач, они не всегда способны улучшать положение пользователя, даже при явных инструкциях оптимизировать свои действия. arXiv · Оценка и бенчмарки EnterpriseClawBench: новый стандарт оценки корпоративных ИИ-агентов Исследователи представили EnterpriseClawBench — специализированный бенчмарк для оценки эффективности ИИ-агентов в реальных рабочих условиях. В отличие от синтетических тестов, этот набор данных сформирован на основе анализа реальных сессий взаимодействия сотрудников с корпоративными системами. В базу вошли 852 воспроизводимые задачи, которые охватывают типичные офисные сценарии: работу с разнородными файлами, вызов внешних инструментов и создание бизнес-артефактов. GitHub · Оркестрация агентов Scholar Loop: автономная агентная система для научных исследований Scholar Loop представляет собой фреймворк для автоматизации полного цикла научной работы: от анализа литературы и проведения экспериментов до самокритики и написания итоговых отчетов. Система использует мультиагентную архитектуру, которая внедряет детерминированные механизмы контроля для минимизации галлюцинаций и предотвращения манипуляций с целевыми метриками (reward-hacking) в процессе обучения и генерации гипотез. Hacker News · Оценка и бенчмарки Senior SWE-bench: новый стандарт оценки ИИ-агентов на уровне Senior-разработчиков Представлен Senior SWE-bench — открытый бенчмарк для оценки способностей ИИ-агентов решать сложные инженерные задачи, требующие уровня квалификации Senior-разработчика. В отличие от базовых тестов, этот инструмент фокусируется на многоэтапном проектировании, глубоком анализе кодовой базы и исправлении архитектурных ошибок, имитируя реальный рабочий процесс в крупных репозиториях с открытым исходным кодом. Hacker News · Оценка и бенчмарки Agents' Last Exam: новый бенчмарк для оценки ИИ-агентов в реальных задачах Исследователи представили Agents' Last Exam — комплексный бенчмарк для оценки способностей ИИ-агентов к выполнению профессиональных рабочих процессов. В отличие от стандартных тестов, ориентированных на решение изолированных задач, этот инструмент проверяет умение моделей взаимодействовать с реальным программным обеспечением, работать с файловыми системами и выполнять многошаговые инструкции в условиях, приближенных к офисной деятельности. arXiv · Оценка и бенчмарки AgentHPOBench: новый бенчмарк для оценки ИИ-агентов в задачах оптимизации гиперпараметров Исследователи представили AgentHPOBench — специализированный бенчмарк для оценки способности LLM-агентов выступать в роли автономных оптимизаторов гиперпараметров. В отличие от существующих тестов, сфокусированных на генерации кода или проверке ответов, этот инструмент анализирует, насколько эффективно агент интерпретирует экспериментальные данные и использует их для итеративного улучшения параметров моделей в последовательном процессе. arXiv · Оценка и бенчмарки NatureBench: новый стандарт для оценки научных способностей ИИ-агентов Исследователи представили NatureBench — специализированный бенчмарк для оценки ИИ-агентов, пишущих код для решения реальных научных задач. В набор вошли 90 междисциплинарных задач, отобранных из публикаций журналов семейства Nature. Цель проекта — проверить, способны ли современные модели не просто воспроизводить результаты, а совершать научные открытия, работая в стандартизированных контейнеризированных средах. arXiv · Оценка и бенчмарки BioSecBench-Surveillance: бенчмарк для оценки ИИ-агентов в геномном надзоре Исследователи представили BioSecBench-Surveillance — специализированный бенчмарк для тестирования ИИ-агентов, работающих с данными геномного надзора за патогенами. Набор из 100 сценариев оценивает способность моделей самостоятельно подбирать аналитические пайплайны на основе сырых данных секвенирования и контекста эпидемиологической ситуации, имитируя реальные задачи специалистов в области биоинформатики и общественного здравоохранения.

← Все материалы