Исследователи представили новый подход к обучению ИИ-агентов, объединяющий извлечение эмпирических правил и обновление параметров модели. Метод позволяет агентам эффективно использовать накопленный опыт в многошаговых средах, преодолевая разрыв между интерпретируемыми текстовыми правилами и глубокой настройкой весов, что повышает адаптивность и результативность принятия решений в сложных интерактивных задачах.

Традиционно опыт агентов либо сохраняется в виде внешних инструкций для промптинга, либо используется для дообучения модели. Первый подход обеспечивает прозрачность, но ограничен контекстным окном и не всегда применим к сложным паттернам поведения. Второй подход лучше усваивает закономерности, но часто страдает от потери интерпретируемости и требует значительных вычислительных ресурсов для каждой итерации.

Предложенная архитектура синхронизирует эти процессы. Агент в процессе взаимодействия генерирует обобщенные правила, которые одновременно служат руководством для текущих действий и обучающим сигналом для корректировки внутренних весов модели. Это позволяет системе быстрее обучаться на ошибках и успехах, сохраняя при этом возможность анализа логики принятия решений через извлеченные правила.

Ключевые факты

  • Метод объединяет использование естественного языка для формирования правил и градиентное обновление параметров модели.
  • Решение направлено на устранение проблемы «забывания» или неэффективного использования опыта в многошаговых интерактивных средах.
  • Подход позволяет агентам динамически адаптироваться к новым условиям без необходимости полной перестройки архитектуры.
  • Исследование сфокусировано на повышении автономности агентов при выполнении задач, требующих долгосрочного планирования и анализа обратной связи.