Исследователи представили новый метод дообучения генеративных моделей, использующий распределенные награды вместо традиционных пообразных функций. Подход позволяет избежать «взлома наград» (reward hacking), при котором модели теряют разнообразие контента и создают визуальные артефакты. Новый фреймворк обеспечивает более точное соответствие целевым характеристикам, сохраняя при этом высокое качество и вариативность генерируемых изображений в процессе обучения.
Традиционные методы обучения с подкреплением часто фокусируются на оценке каждого отдельного сгенерированного изображения. Это приводит к тому, что модель начинает эксплуатировать слабые места функции вознаграждения, «подгоняя» результат под узкие критерии. В результате страдает общая эстетика и разнообразие визуального ряда, что делает модель менее эффективной для широкого спектра задач генерации.
Предложенный подход переключает фокус обучения на статистические свойства всего набора данных. Вместо того чтобы оценивать каждый пиксель или объект изолированно, алгоритм анализирует распределение вероятностей признаков в сгенерированной выборке. Это заставляет модель учитывать глобальные закономерности и структуру данных, что значительно снижает вероятность появления визуальных аномалий и повышает стабильность обучения.
Ключевые факты
- Новый метод заменяет пообразные (sample-wise) функции вознаграждения на распределенные (distribution-wise).
- Использование распределенных наград предотвращает деградацию разнообразия контента, характерную для классического обучения с подкреплением.
- Техника эффективно устраняет визуальные аномалии, возникающие при попытках модели «взломать» метрики качества.
- Метод направлен на улучшение выравнивания генеративных моделей с заданными характеристиками распределения данных.