Сервис Mirrors представил платформу для тестирования изменений в ИИ-агентах через воспроизведение реальных трасс (traces) из продакшена. Инструмент позволяет разработчикам сравнивать поведение обновленной версии агента с историческими данными, выявляя регрессии и ошибки в логике до того, как изменения попадут к конечным пользователям. Это упрощает отладку сложных агентных систем в условиях реальных нагрузок.

Основная проблема при разработке агентных систем заключается в непредсказуемости ответов LLM при изменении системных промптов или инструментов. Mirrors решает эту задачу, позволяя «проигрывать» накопленные логи запросов через новую версию агента. Система автоматически подсвечивает различия в цепочках рассуждений, вызовах функций и финальных ответах, что дает возможность количественно оценить влияние правок на качество работы.

Использование такого подхода позволяет перейти от ручного тестирования к автоматизированным пайплайнам оценки (evaluation). Разработчики могут видеть, как именно изменение параметров модели или логики оркестрации отражается на выполнении конкретных задач, основываясь на реальных сценариях взаимодействия, с которыми агенты сталкивались в эксплуатации.

Ключевые факты

  • Платформа ориентирована на воспроизведение реальных продакшн-трасс для тестирования агентных систем.
  • Инструмент позволяет проводить сравнение результатов работы старой и новой версий агента в автоматическом режиме.
  • Основной фокус сделан на выявлении регрессий в логике рассуждений и вызовах внешних инструментов.
  • Решение помогает минимизировать риски при обновлении системных промптов и конфигураций моделей.