arXiv · 22.06.2026 ·Исследования и наука

DiT-Reward: использование генеративных моделей для оценки качества изображений

Исследователи представили метод DiT-Reward, который позволяет использовать предобученные диффузионные трансформеры для оценки качества генерации изображений. Вместо создания отдельной системы для проверки результатов, авторы адаптировали архитектуру генеративной модели под задачу предсказания вознаграждения (reward modeling). Это позволяет системе точнее определять, насколько сгенерированное изображение соответствует заданному текстовому описанию.

В основе подхода лежит обработка латентных представлений изображений, близких к финальному результату, с последующей агрегацией данных, обусловленных текстом. Такой метод позволяет эффективно использовать накопленные знания модели о визуальных концепциях для оценки того, насколько удачно нейросеть справилась с конкретным промптом. Это открывает возможности для более точной настройки моделей без необходимости обучения дополнительных тяжеловесных классификаторов.

Результаты исследования показывают, что генеративные представления, полученные в процессе обучения диффузионных моделей, содержат достаточно информации для качественной оценки визуального контента. Использование DiT-Reward упрощает пайплайны обучения с подкреплением на основе обратной связи от человека (RLHF), делая процесс оценки более эффективным и менее ресурсозатратным. Данная технология может стать важным инструментом для улучшения точности следования промптам в современных генераторах изображений.

Источник: arXiv

Похожие материалы

arXiv · Модели и релизы Новый метод улучшения генерации изображений по тексту Исследователи предложили новый подход к дообучению моделей генерации изображений по тексту. В статье на arXiv представлен метод STAR (SpatioTemporal Adaptive Reward Allocation), который учитывает временную и пространственную структуру процесса генерации. arXiv · Машинное обучение Метод семантической коррекции для авторегрессионных визуальных моделей Исследователи представили новый подход к повышению качества генерации изображений и видео в авторегрессионных визуальных моделях (AVM). Основная проблема таких систем заключается в многомасштабном подходе к синтезу: процесс разбивается на дискретные этапы с разной степенью детализации, из-за чего семантические ошибки, допущенные на ранних стадиях, накапливаются и приводят к искажениям в финальном результате. arXiv · Машинное обучение Оптимизация синтетических данных для обучения компьютерного зрения Исследователи представили метод SmartSDG, направленный на устранение разрыва между синтетическими данными и реальными условиями в задачах компьютерного зрения. Использование сгенерированных изображений позволяет обходить проблему ручной разметки, однако качество моделей часто страдает из-за различий в освещении и сложности фона. Новый подход систематизирует влияние физически корректного непрямого освещения на точность распознавания объектов. arXiv · Машинное обучение ProductConsistency: новый метод сохранения идентичности объектов при редактировании изображений Исследователи представили метод ProductConsistency, направленный на решение проблемы потери деталей при редактировании изображений с помощью текстовых инструкций. Современные модели часто искажают ключевые характеристики товаров, такие как брендинг, специфические элементы дизайна и текстовые надписи, когда пользователь запрашивает изменение фона или окружения. Новый подход позволяет сохранять визуальную идентичность продукта, что критически важно для коммерческого использования ИИ в маркетинге и электронной коммерции. arXiv · Модели и релизы Почему самоулучшающиеся модели могут деградировать на новых задачах Исследователи из Arxiv выявили проблему в популярном подходе к самоулучшению визуально-языковых моделей (VLM), основанном на DPO (Direct Preference Optimization). В таких системах «верфикатор» оценивает генерации модели, а на основе лучших и худших примеров происходит обучение. Авторы показали, что этот метод может привести к деградации модели на новых задачах, несмотря на улучшение на обучающих данных. arXiv · Машинное обучение Повышение устойчивости диффузионных моделей к зашумленным данным Исследователи предложили новый метод обучения диффузионных моделей, который делает их более устойчивыми к загрязненным обучающим выборкам. Традиционный подход, основанный на минимизации среднеквадратичной ошибки (MSE), часто оказывается чувствительным к выбросам и некачественным данным, что снижает итоговое качество генерации контента. arXiv · Машинное обучение Новый метод обучения симуляторов пользователей через Turing Rewards Исследователи представили новый подход к обучению симуляторов человеческого поведения, которые необходимы для тестирования ИИ-ассистентов и систем персонализации. Традиционные методы обычно ограничиваются обучением языковых моделей на предсказании одного эталонного ответа, что часто приводит к предсказуемым и недостаточно вариативным результатам. Авторы работы предлагают использовать концепцию Turing Rewards, которая позволяет модели обучаться в интерактивной среде, ориентируясь на более сложные критерии взаимодействия, чем простое совпадение текста. arXiv · Исследования и наука Метод семантического браузинга для управления разнообразием генерации изображений Исследователи представили новый подход к генерации изображений под названием «семантический браузинг» (Semantic Browsing). Современные диффузионные модели демонстрируют высокую точность следования текстовым запросам, однако часто страдают от низкой вариативности результатов. При попытке разнообразить генерацию существующие методы обычно вносят случайные изменения, которые не несут смысловой нагрузки и не позволяют пользователю осознанно управлять визуальными характеристиками объекта. arXiv · Машинное обучение Итеративная самофильтрация данных для обучения мультимодальных моделей Качество обучающих выборок остается критическим фактором при создании эффективных мультимодальных нейросетей. В условиях работы с массивами данных гигантского объема ручная проверка становится невозможной, что приводит к накоплению значительного количества «шумных» и нерелевантных примеров. Традиционные методы очистки данных, основанные на эвристиках или использовании сторонних предобученных моделей, часто оказываются недостаточно гибкими или требуют больших вычислительных затрат. arXiv · Машинное обучение Автоматическая оптимизация 3D-генерации с помощью VLM-судьи Исследователи представили новый метод улучшения качества генерации 3D-объектов по одному изображению. В основе подхода лежит использование мультимодальной языковой модели (VLM) в качестве автоматического судьи, который оценивает и ранжирует качество создаваемых мешей. Традиционные метрики, такие как CLIP или упрощенные геометрические прокси, часто оказываются недостаточно точными для оценки сложных 3D-структур, поэтому новая система предлагает более надежный способ фильтрации результатов.

← Все материалы