Исследователи представили метод DiT-Reward, который позволяет использовать предобученные диффузионные трансформеры для оценки качества генерации изображений. Вместо создания отдельной системы для проверки результатов, авторы адаптировали архитектуру генеративной модели под задачу предсказания вознаграждения (reward modeling). Это позволяет системе точнее определять, насколько сгенерированное изображение соответствует заданному текстовому описанию.

В основе подхода лежит обработка латентных представлений изображений, близких к финальному результату, с последующей агрегацией данных, обусловленных текстом. Такой метод позволяет эффективно использовать накопленные знания модели о визуальных концепциях для оценки того, насколько удачно нейросеть справилась с конкретным промптом. Это открывает возможности для более точной настройки моделей без необходимости обучения дополнительных тяжеловесных классификаторов.

Результаты исследования показывают, что генеративные представления, полученные в процессе обучения диффузионных моделей, содержат достаточно информации для качественной оценки визуального контента. Использование DiT-Reward упрощает пайплайны обучения с подкреплением на основе обратной связи от человека (RLHF), делая процесс оценки более эффективным и менее ресурсозатратным. Данная технология может стать важным инструментом для улучшения точности следования промптам в современных генераторах изображений.