Исследователи проанализировали фундаментальную зависимость между вероятностью последовательности токенов и фактической корректностью ответов LLM. Работа показывает, что методы декодирования, перераспределяющие вероятностную массу, опираются на предположение о корреляции между уверенностью модели и истинностью вывода. Авторы определяют условия, при которых высокая вероятность последовательности действительно указывает на правильность ответа, и выявляют ограничения этого подхода в сложных задачах.
Основная проблема заключается в том, что стандартные методы генерации, такие как поиск по лучу (beam search) или сэмплирование, часто отдают предпочтение наиболее вероятным токенам, что не всегда гарантирует фактологическую точность. Исследование демонстрирует, что в задачах с открытым ответом или сложным логическим выводом высокая вероятность последовательности может отражать лишь лингвистическую типичность, а не истинность утверждения.
Работа предлагает новый взгляд на механизмы калибровки моделей. Авторы показывают, что разрыв между вероятностным распределением модели и реальностью увеличивается при генерации длинных текстов, где накопленная ошибка вероятности снижает надежность выбора. Это ставит под сомнение эффективность простых стратегий декодирования для критически важных приложений, требующих высокой точности и минимизации галлюцинаций.
Ключевые факты
- Исследование анализирует, когда условная вероятность продолжения текста коррелирует с его фактической истинностью.
- Установлено, что методы декодирования, максимизирующие вероятность, часто отдают приоритет лингвистической вероятности в ущерб фактологической точности.
- Выявлено, что при генерации длинных последовательностей корреляция между уверенностью модели и правильностью ответа существенно снижается.
- Работа подчеркивает необходимость разработки новых метрик оценки, которые выходят за рамки простого анализа вероятностного распределения токенов.