Исследователи представили новый подход к обучению ИИ-агентов, объединяющий извлечение эмпирических правил и обновление параметров модели. Метод позволяет агентам эффективно использовать накопленный опыт в многошаговых средах, преодолевая разрыв между интерпретируемыми текстовыми правилами и глубокой настройкой весов, что повышает адаптивность и результативность принятия решений в сложных интерактивных задачах.
Традиционно опыт агентов либо сохраняется в виде внешних инструкций для промптинга, либо используется для дообучения модели. Первый подход обеспечивает прозрачность, но ограничен контекстным окном и не всегда применим к сложным паттернам поведения. Второй подход лучше усваивает закономерности, но часто страдает от потери интерпретируемости и требует значительных вычислительных ресурсов для каждой итерации.
Предложенная архитектура синхронизирует эти процессы. Агент в процессе взаимодействия генерирует обобщенные правила, которые одновременно служат руководством для текущих действий и обучающим сигналом для корректировки внутренних весов модели. Это позволяет системе быстрее обучаться на ошибках и успехах, сохраняя при этом возможность анализа логики принятия решений через извлеченные правила.
Ключевые факты
- Метод объединяет использование естественного языка для формирования правил и градиентное обновление параметров модели.
- Решение направлено на устранение проблемы «забывания» или неэффективного использования опыта в многошаговых интерактивных средах.
- Подход позволяет агентам динамически адаптироваться к новым условиям без необходимости полной перестройки архитектуры.
- Исследование сфокусировано на повышении автономности агентов при выполнении задач, требующих долгосрочного планирования и анализа обратной связи.