Исследователи представили фреймворк Language-Critique Imitation Learning, который позволяет обучать ИИ-агентов на неидеальных демонстрациях с помощью текстовых пояснений. В отличие от традиционных методов, использующих ограниченные скалярные оценки, новый подход передает модели детализированную обратную связь о причинах ошибок, прогрессе выполнения задачи и необходимых корректирующих действиях, что значительно повышает эффективность обучения в сложных сценариях.
Традиционные методы обучения с подражанием (imitation learning) часто опираются на сжатые сигналы, такие как веса важности или оценки дискриминатора. Эти метрики не позволяют модели понять логику действий, что критично при работе с «зашумленными» или субоптимальными данными. Использование естественного языка позволяет формализовать экспертные знания в виде структурированных инструкций, которые агент интерпретирует как руководство к исправлению поведения.
Предложенный подход открывает путь к более гибкому обучению агентов в средах, где качественные эталонные данные ограничены или отсутствуют. Языковая критика выступает в роли промежуточного слоя рассуждений, позволяя модели не просто копировать действия, а анализировать контекст выполнения задачи. Это снижает зависимость от идеальных наборов данных и делает процесс обучения более интерпретируемым для разработчиков.
Ключевые факты
- Фреймворк заменяет ограниченные скалярные сигналы (оценки уверенности, веса) на развернутую текстовую обратную связь.
- Метод позволяет агентам извлекать полезный опыт из субоптимальных демонстраций, содержащих ошибки или неэффективные действия.
- Языковая критика включает в себя явное описание промежуточных этапов рассуждения, анализ причин сбоев и конкретные рекомендации по исправлению действий.
- Подход направлен на решение проблемы нехватки высококачественных данных для обучения агентов в сложных прикладных задачах.