Исследователи проанализировали проблему генерализации ИИ-агентов при переходе от статических бенчмарков к динамическим условиям реального мира. Работа выявила высокую хрупкость моделей из-за распределительных сдвигов в запросах, наборах инструментов и контексте взаимодействия. Авторы представили концепцию OpenAgent, формализующую вызовы, с которыми сталкиваются системы при работе в непредсказуемой среде, где параметры задач постоянно меняются.
Текущие методы обучения агентов часто переобучаются под конкретные наборы инструментов и сценарии, представленные в обучающих выборках. Это приводит к тому, что при изменении API, добавлении новых функций или смене типа пользовательских запросов производительность моделей резко падает. Авторы подчеркивают, что классические подходы к оценке не учитывают динамическую природу «открытого мира», что создает иллюзию готовности агентов к промышленному внедрению.
Для решения проблемы авторы предлагают пересмотреть подходы к обучению, смещая фокус с заучивания последовательностей действий на адаптивность к меняющимся условиям среды. Исследование показывает, что устойчивость агента напрямую зависит от способности модели интерпретировать новые инструменты «на лету» без необходимости дообучения, что является критическим барьером для создания автономных систем, способных работать вне контролируемых лабораторных условий.
Ключевые факты
- Исследование формализует проблему OpenAgent, характеризующуюся сдвигами в распределении запросов, действий и наблюдений.
- Выявлена критическая зависимость производительности агентов от статических обучающих данных, ограничивающая их применение в динамических средах.
- Основным препятствием для генерализации названа неспособность моделей адаптироваться к изменению наборов инструментов и контекстуальной динамике.
- Работа подчеркивает неадекватность существующих статических бенчмарков для оценки реальной надежности агентных систем.