arXiv · 25.06.2026 ·Исследования и наука

Связь вероятности генерации и точности ответов в LLM

Исследователи проанализировали фундаментальную зависимость между вероятностью последовательности токенов и фактической корректностью ответов LLM. Работа показывает, что методы декодирования, перераспределяющие вероятностную массу, опираются на предположение о корреляции между уверенностью модели и истинностью вывода. Авторы определяют условия, при которых высокая вероятность последовательности действительно указывает на правильность ответа, и выявляют ограничения этого подхода в сложных задачах.

Основная проблема заключается в том, что стандартные методы генерации, такие как поиск по лучу (beam search) или сэмплирование, часто отдают предпочтение наиболее вероятным токенам, что не всегда гарантирует фактологическую точность. Исследование демонстрирует, что в задачах с открытым ответом или сложным логическим выводом высокая вероятность последовательности может отражать лишь лингвистическую типичность, а не истинность утверждения.

Работа предлагает новый взгляд на механизмы калибровки моделей. Авторы показывают, что разрыв между вероятностным распределением модели и реальностью увеличивается при генерации длинных текстов, где накопленная ошибка вероятности снижает надежность выбора. Это ставит под сомнение эффективность простых стратегий декодирования для критически важных приложений, требующих высокой точности и минимизации галлюцинаций.

Ключевые факты

Исследование анализирует, когда условная вероятность продолжения текста коррелирует с его фактической истинностью.
Установлено, что методы декодирования, максимизирующие вероятность, часто отдают приоритет лингвистической вероятности в ущерб фактологической точности.
Выявлено, что при генерации длинных последовательностей корреляция между уверенностью модели и правильностью ответа существенно снижается.
Работа подчеркивает необходимость разработки новых метрик оценки, которые выходят за рамки простого анализа вероятностного распределения токенов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы