Исследователи представили метод оптимизации поведения ИИ-агентов, основанный на анализе успешных траекторий действий без изменения весов модели. Подход заключается в манипуляции пространством токенов, что позволяет направлять агент к выполнению сложных задач через уточнение контекста и промптов, основываясь на прошлых результатах выполнения, исключая необходимость дорогостоящего дообучения или градиентного спуска.

Данная методика решает проблему «застревания» агентов в неэффективных паттернах поведения. Вместо того чтобы переучивать модель, система анализирует логи выполнения задач, выделяет наиболее успешные последовательности действий и переводит их в формат инструкций, которые модель интерпретирует как руководство к действию. Это значительно сокращает время и вычислительные затраты на адаптацию агента к новым доменам или специфическим бизнес-процессам.

Технология опирается на концепцию «кинестетического» обучения, где агент учится на собственных ошибках и успехах в реальном времени. Использование токенов как основного инструмента управления позволяет интегрировать этот метод в существующие пайплайны оркестрации агентов, сохраняя при этом предсказуемость поведения модели и снижая риск галлюцинаций, характерных для методов с глубокой перенастройкой параметров.

Ключевые факты

  • Метод исключает необходимость обновления весов модели (weight updates), что экономит ресурсы GPU.
  • Оптимизация происходит на уровне токенов, что обеспечивает совместимость с большинством современных LLM.
  • Подход базируется на анализе траекторий — последовательностей действий агента при решении конкретных задач.
  • Технология позволяет динамически корректировать поведение агента в процессе эксплуатации без остановки системы на переобучение.