Исследователи выявили скрытую уязвимость в методах дообучения языковых моделей с помощью синтетических данных. Использование пар «вопрос-ответ», сгенерированных самой моделью на основе исходных документов, искажает процесс обучения. Этот подход не является нейтральным: он неосознанно фильтрует информацию, отдавая предпочтение одним фактам перед другими, что приводит к деградации способности модели к полноценному извлечению знаний из текста.

Процесс генерации синтетических QA-пар фактически выступает как скрытая политика отбора данных. Вместо того чтобы просто сжимать или дистиллировать знания, модель начинает «выбирать», какие фрагменты исходного документа станут основой для обучения, а какие будут проигнорированы. Это создает систематические пробелы в знаниях, которые модель не может компенсировать даже при увеличении объема обучающей выборки.

Авторы работы подчеркивают, что текущая практика массового использования синтетики для дистилляции и дообучения требует пересмотра. Без контроля над тем, как именно модель формулирует вопросы к собственным данным, разработчики рискуют получить системы с ограниченным «кругозором», которые теряют способность к глубокому анализу контекста, заложенного в исходных документах.

Ключевые факты

  • Синтетическая генерация QA-пар признана не нейтральным этапом предобработки, а фактором, искажающим структуру знаний модели.
  • Метод приводит к неосознанному отбору доказательств, что снижает качество обучения по сравнению с использованием экспертных данных.
  • Исследование демонстрирует, что автоматизированная дистилляция знаний через самогенерацию вопросов создает «хрупкость» модели в задачах на извлечение информации.
  • Работа указывает на необходимость разработки новых метрик контроля качества для синтетических наборов данных, используемых в fine-tuning.