Исследователи предложили новый метод тестирования LLM, используя механику детективной настольной игры «Шерлок Холмс: Консультирующий детектив». В отличие от стандартных тестов на эрудицию, этот подход требует от модели не просто извлечения фактов, а ведения полноценного расследования: анализа противоречивых свидетельских показаний, сопоставления улик и построения логических цепочек в условиях ограниченных ресурсов.

В рамках эксперимента агенты должны были изучать газетные вырезки, карты города и отчеты о происшествиях, чтобы прийти к верному выводу. Основная сложность для моделей заключалась в необходимости фильтровать релевантную информацию из большого объема контекста и удерживать структуру повествования на протяжении всей игровой сессии. Такой формат позволяет оценить способность ИИ к многошаговому планированию и критическому мышлению, которые критически важны для решения прикладных задач в реальных бизнес-процессах.

Результаты исследования показывают, что даже современные модели сталкиваются с трудностями при необходимости связывать разрозненные данные в единую детективную историю. Использование игровых сценариев в качестве бенчмарка помогает выявить слабые места в архитектуре моделей, отвечающих за долгосрочное планирование и логический вывод. Этот метод оценки становится важным инструментом для разработчиков, стремящихся повысить надежность ИИ-систем в задачах, требующих глубокого анализа и принятия решений на основе неструктурированных данных.