arXiv · 01.07.2026 ·Машинное обучение

Обучение агентов через языковую критику вместо скалярных сигналов

Исследователи представили фреймворк Language-Critique Imitation Learning, который позволяет обучать ИИ-агентов на неидеальных демонстрациях с помощью текстовых пояснений. В отличие от традиционных методов, использующих ограниченные скалярные оценки, новый подход передает модели детализированную обратную связь о причинах ошибок, прогрессе выполнения задачи и необходимых корректирующих действиях, что значительно повышает эффективность обучения в сложных сценариях.

Традиционные методы обучения с подражанием (imitation learning) часто опираются на сжатые сигналы, такие как веса важности или оценки дискриминатора. Эти метрики не позволяют модели понять логику действий, что критично при работе с «зашумленными» или субоптимальными данными. Использование естественного языка позволяет формализовать экспертные знания в виде структурированных инструкций, которые агент интерпретирует как руководство к исправлению поведения.

Предложенный подход открывает путь к более гибкому обучению агентов в средах, где качественные эталонные данные ограничены или отсутствуют. Языковая критика выступает в роли промежуточного слоя рассуждений, позволяя модели не просто копировать действия, а анализировать контекст выполнения задачи. Это снижает зависимость от идеальных наборов данных и делает процесс обучения более интерпретируемым для разработчиков.

Ключевые факты

Фреймворк заменяет ограниченные скалярные сигналы (оценки уверенности, веса) на развернутую текстовую обратную связь.
Метод позволяет агентам извлекать полезный опыт из субоптимальных демонстраций, содержащих ошибки или неэффективные действия.
Языковая критика включает в себя явное описание промежуточных этапов рассуждения, анализ причин сбоев и конкретные рекомендации по исправлению действий.
Подход направлен на решение проблемы нехватки высококачественных данных для обучения агентов в сложных прикладных задачах.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы