arXiv · 30.06.2026 ·Исследования и наука

Метакогнитивная обратная связь повышает точность оценки уверенности LLM

Исследователи представили метод обучения с подкреплением (RL), который наделяет большие языковые модели способностью к метапознанию — мониторингу собственных когнитивных процессов. Внедрение метакогнитивной обратной связи позволяет моделям более точно выражать внутреннюю неуверенность, снижая склонность к самоуверенным галлюцинациям и помогая системе лучше распознавать границы своих знаний в сложных задачах.

Проблема «уверенных галлюцинаций» остается одним из главных препятствий для внедрения LLM в критически важные области. Традиционные методы обучения часто фокусируются на максимизации вероятности правильного ответа, игнорируя способность модели оценивать надежность собственных выводов. Новый подход заставляет модель не просто генерировать текст, но и анализировать процесс формирования ответа, сопоставляя его с внутренними критериями достоверности.

В ходе экспериментов авторы показали, что модели, обученные с использованием метакогнитивных сигналов, демонстрируют значительно более высокую корреляцию между выраженной уверенностью и фактической точностью ответов. Это позволяет пользователям и внешним системам эффективнее фильтровать потенциально ошибочные генерации, опираясь на объективные показатели неопределенности, которые модель транслирует в процессе работы.

Ключевые факты

Метод использует обучение с подкреплением (RL) для настройки метакогнитивных способностей модели.
Основная цель исследования — устранение разрыва между высокой уверенностью модели и фактической недостоверностью ответов (галлюцинациями).
Внедрение механизма позволяет моделям лучше распознавать границы собственных знаний в задачах с высокой степенью неопределенности.
Результаты показывают повышение надежности систем при работе с запросами, требующими верификации фактов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы