Исследователи представили метод обучения с подкреплением (RL), который наделяет большие языковые модели способностью к метапознанию — мониторингу собственных когнитивных процессов. Внедрение метакогнитивной обратной связи позволяет моделям более точно выражать внутреннюю неуверенность, снижая склонность к самоуверенным галлюцинациям и помогая системе лучше распознавать границы своих знаний в сложных задачах.
Проблема «уверенных галлюцинаций» остается одним из главных препятствий для внедрения LLM в критически важные области. Традиционные методы обучения часто фокусируются на максимизации вероятности правильного ответа, игнорируя способность модели оценивать надежность собственных выводов. Новый подход заставляет модель не просто генерировать текст, но и анализировать процесс формирования ответа, сопоставляя его с внутренними критериями достоверности.
В ходе экспериментов авторы показали, что модели, обученные с использованием метакогнитивных сигналов, демонстрируют значительно более высокую корреляцию между выраженной уверенностью и фактической точностью ответов. Это позволяет пользователям и внешним системам эффективнее фильтровать потенциально ошибочные генерации, опираясь на объективные показатели неопределенности, которые модель транслирует в процессе работы.
Ключевые факты
- Метод использует обучение с подкреплением (RL) для настройки метакогнитивных способностей модели.
- Основная цель исследования — устранение разрыва между высокой уверенностью модели и фактической недостоверностью ответов (галлюцинациями).
- Внедрение механизма позволяет моделям лучше распознавать границы собственных знаний в задачах с высокой степенью неопределенности.
- Результаты показывают повышение надежности систем при работе с запросами, требующими верификации фактов.