Hugging Face представила методологию для оценки того, насколько эффективно языковые модели справляются с использованием внешних инструментов. В отличие от стандартных тестов на логику или знание фактов, новый подход фокусируется на способности модели вызывать функции, интерпретировать ответы API и корректировать свои действия в рамках многошаговых задач. Это позволяет разработчикам точнее определять, какая модель лучше подходит для создания автономных агентов.

В основе метода лежит фреймворк для тестирования моделей в реальных сценариях взаимодействия с инструментами. Исследователи создали набор задач, требующих от ИИ не просто генерации текста, а выполнения последовательности действий: поиска информации, вычислений и обработки данных. Оценка проводится по ключевым метрикам: точности выбора нужного инструмента, корректности передачи аргументов и способности модели восстанавливаться после ошибок при получении неверных данных от внешних систем.

Результаты показывают значительный разрыв между моделями в их «агентной» готовности. Даже модели с высокими показателями в классических бенчмарках часто демонстрируют низкую эффективность при работе с реальными API из-за проблем с форматированием вызовов или неспособности следовать сложным инструкциям по цепочке рассуждений. Новый инструмент позволяет автоматизировать процесс тестирования, помогая командам выбирать оптимальные модели для интеграции в агентные системы без необходимости ручной проверки каждого сценария.

Этот подход упрощает разработку сложных систем, где ИИ выступает в роли оркестратора. Теперь разработчики могут количественно измерить, насколько модель способна надежно управлять внешними сервисами, что является критическим фактором для внедрения ИИ-агентов в бизнес-процессы. Методология доступна для использования с любыми открытыми моделями, что дает возможность проводить сравнительный анализ производительности в специфических для конкретного проекта условиях.