Исследователи представили метод Variance-Calibrated Modulation (VCM), направленный на устранение проблемы «ловушки правдоподобия» при генерации текста большими языковыми моделями. Традиционные подходы к декодированию, такие как Top-p или Min-p, часто приводят к монотонности и избыточным повторам, так как модели склонны чрезмерно полагаться на наиболее вероятные токены, игнорируя разнообразие лексики, характерное для человеческой речи.
Суть предложенного решения заключается в динамической калибровке дисперсии вероятностей в процессе генерации. Вместо простого отсечения «хвоста» распределения, алгоритм корректирует веса токенов, сглаживая пики вероятностей. Это позволяет модели избегать зацикливания на одних и тех же фразах и делает сгенерированный контент более вариативным и естественным по структуре.
Тестирование показало, что VCM значительно снижает частоту дегенеративных повторов без необходимости дообучения базовой модели. Метод демонстрирует лучшие показатели в задачах открытой генерации, где требуется сохранение связности текста на длинных дистанциях. Технология может быть интегрирована в существующие пайплайны инференса для улучшения качества ответов без дополнительных вычислительных затрат на обучение.