Исследователи представили TraceLab — платформу для сбора и анализа трассировок реальных рабочих нагрузок ИИ-агентов, пишущих код. Инструмент позволяет детально изучить паттерны запросов к LLM, что критически важно для проектирования эффективных систем обслуживания моделей, управления памятью и оптимизации задержек в агентных архитектурах, где последовательности вызовов значительно сложнее стандартных чат-ботов.

Современные агентные системы, автоматизирующие написание кода, создают уникальные требования к инфраструктуре инференса. В отличие от простых запросов «вопрос-ответ», агенты генерируют длинные цепочки рассуждений, многократно обращаются к инструментам и файловым системам, а также требуют длительного удержания контекста. TraceLab помогает разработчикам инфраструктуры понять, как именно эти специфические паттерны влияют на пропускную способность серверов и использование GPU.

Использование данных TraceLab позволяет моделировать поведение агентов в контролируемой среде, что дает возможность тестировать новые стратегии кэширования и планирования задач до их внедрения в продакшн. Это особенно актуально для систем, работающих с длинным контекстом, где стоимость каждого токена и задержка при переключении между задачами становятся определяющими факторами масштабируемости и стоимости эксплуатации агентных сервисов.

Ключевые факты

  • TraceLab предоставляет набор данных с трассировками реальных агентных сессий, включая вызовы инструментов и взаимодействие с кодовой базой.
  • Платформа ориентирована на оптимизацию систем обслуживания LLM (LLM serving) с учетом специфики агентных циклов «планирование-действие-наблюдение».
  • Инструмент позволяет проводить профилирование задержек и потребления ресурсов при выполнении сложных задач по программированию.
  • Исследование подчеркивает разрыв между стандартными бенчмарками для моделей и реальными нагрузками, которые создают автономные агенты в инфраструктуре.