LLM Colosseum — это легковесная браузерная стратегия в реальном времени, созданная для оценки способностей языковых моделей к вызову внешних инструментов (tool calling). Проект позволяет тестировать, как агенты управляют юнитами и ресурсами в динамической среде, предоставляя разработчикам наглядный способ сравнить эффективность различных LLM в задачах планирования и исполнения команд без сложных зависимостей.
В основе проекта лежит концепция «арены», где модель выступает в роли игрока, получая состояние игрового мира в виде JSON-структуры и возвращая список действий для выполнения. В отличие от статических бенчмарков, здесь агент сталкивается с необходимостью реагировать на меняющуюся обстановку, что требует от модели не только понимания API, но и способности к долгосрочному планированию и корректной обработке ошибок при выполнении действий.
Инструмент ориентирован на разработчиков, которые занимаются созданием агентных систем и хотят проверить надежность своих моделей в условиях, приближенных к реальным задачам управления сложными интерфейсами. Отсутствие тяжелых зависимостей делает его удобным для быстрой интеграции в пайплайны тестирования и оценки качества промптов в агентных сценариях.
Ключевые факты
- Проект представляет собой полноценную RTS-игру, работающую прямо в браузере.
- Основная метрика — способность LLM эффективно использовать API для управления юнитами и ресурсами.
- Реализована архитектура с нулевыми зависимостями для упрощения запуска и тестирования.
- Модели получают состояние мира в формате JSON и должны возвращать структурированные команды для выполнения действий.
- Инструмент позволяет проводить сравнительный анализ поведения разных моделей в идентичных игровых сценариях.