Платформа OpenRouter представила результаты тестирования различных языковых моделей в условиях симуляции, где агенты должны принимать решения в режиме реального времени. В рамках эксперимента модели помещались в динамическую среду, требующую быстрой реакции на меняющиеся обстоятельства. Цель исследования заключалась в оценке того, как архитектурные различия и методы обучения влияют на способность моделей эффективно управлять автономными объектами в условиях ограниченного времени.
В ходе тестов анализировались показатели задержки (latency), точности следования инструкциям и способности к стратегическому планированию при столкновении с непредвиденными препятствиями. Исследование показало, что выбор модели напрямую определяет «поведение» агента: одни системы демонстрируют более агрессивные и быстрые алгоритмы принятия решений, в то время как другие делают упор на осторожность и анализ контекста. Полученные данные подчеркивают разрыв между теоретическими возможностями моделей и их практической применимостью в задачах, требующих высокой скорости обработки данных.
Результаты подчеркивают важность выбора конкретной модели в зависимости от специфики агентной задачи. Для систем, где критически важна мгновенная реакция, предпочтение отдается моделям с оптимизированным инференсом, тогда как для задач, требующих сложной логики, лучше подходят более тяжелые архитектуры. Данный бенчмарк предоставляет разработчикам метрики для выбора оптимального «движка» при проектировании автономных систем, работающих в реальном времени.