Исследователи представили метод дообучения языковых моделей, позволяющий им с высокой точностью имитировать случайные процессы, такие как бросок игральной кости. Традиционные LLM часто демонстрируют предвзятость при генерации случайных чисел, отдавая предпочтение определенным цифрам из-за особенностей обучающей выборки и механизмов токенизации. Новый подход фокусируется на исправлении этой системной ошибки через специализированный этап пост-тренировки с использованием методов обучения с подкреплением.

В ходе экспериментов модель научили не просто имитировать случайность, а строго соблюдать заданные вероятностные распределения. Для оценки качества генерации использовались статистические тесты, подтверждающие, что результаты бросков кости соответствуют теоретически ожидаемым частотам. Это демонстрирует возможность корректировки «когнитивных искажений» моделей, которые возникают при попытке имитировать стохастическое поведение в задачах, требующих высокой точности.

Данное исследование подчеркивает важность контроля за вероятностными выходами нейросетей в прикладных сценариях. Способность модели надежно следовать заданным параметрам случайности критична для систем, где требуется честная симуляция или непредвзятая выборка данных. Метод дообучения позволяет минимизировать влияние скрытых паттернов в весах модели, обеспечивая предсказуемое поведение в задачах, где случайность является ключевым функциональным требованием.