arXiv · 02.07.2026 ·Машинное обучение

Оптимизация визуальных генеративных моделей через распределенные награды

Исследователи представили новый метод дообучения генеративных моделей, использующий распределенные награды вместо традиционных пообразных функций. Подход позволяет избежать «взлома наград» (reward hacking), при котором модели теряют разнообразие контента и создают визуальные артефакты. Новый фреймворк обеспечивает более точное соответствие целевым характеристикам, сохраняя при этом высокое качество и вариативность генерируемых изображений в процессе обучения.

Традиционные методы обучения с подкреплением часто фокусируются на оценке каждого отдельного сгенерированного изображения. Это приводит к тому, что модель начинает эксплуатировать слабые места функции вознаграждения, «подгоняя» результат под узкие критерии. В результате страдает общая эстетика и разнообразие визуального ряда, что делает модель менее эффективной для широкого спектра задач генерации.

Предложенный подход переключает фокус обучения на статистические свойства всего набора данных. Вместо того чтобы оценивать каждый пиксель или объект изолированно, алгоритм анализирует распределение вероятностей признаков в сгенерированной выборке. Это заставляет модель учитывать глобальные закономерности и структуру данных, что значительно снижает вероятность появления визуальных аномалий и повышает стабильность обучения.

Ключевые факты

Новый метод заменяет пообразные (sample-wise) функции вознаграждения на распределенные (distribution-wise).
Использование распределенных наград предотвращает деградацию разнообразия контента, характерную для классического обучения с подкреплением.
Техника эффективно устраняет визуальные аномалии, возникающие при попытках модели «взломать» метрики качества.
Метод направлен на улучшение выравнивания генеративных моделей с заданными характеристиками распределения данных.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Исследования и наука DiT-Reward: использование генеративных моделей для оценки качества изображений Исследователи представили метод DiT-Reward, который позволяет использовать предобученные диффузионные трансформеры для оценки качества генерации изображений. Вместо создания отдельной системы для проверки результатов, авторы адаптировали архитектуру генеративной модели под задачу предсказания вознаграждения (reward modeling). Это позволяет системе точнее определять, насколько сгенерированное изображение соответствует заданному текстовому описанию. arXiv · Исследования и наука Новый метод обучения видеомоделей Shell-LCC без внешних функций вознаграждения Исследователи представили метод Shell-LCC, позволяющий оптимизировать диффузионные модели для генерации видео без использования внешних моделей вознаграждения или дорогостоящего обучения с подкреплением (RLHF/DPO). Авторы доказывают, что структура данных сама по себе содержит скрытые сигналы, которые можно использовать для улучшения качества генерации, что значительно снижает вычислительные затраты и зависимость от человеческой разметки при сохранении высокой детализации контента. Hacker News · Машинное обучение Оптимизация процесса оценки моделей через эволюционные алгоритмы Вместо классического дообучения нейросетей исследователи предлагают сосредоточиться на эволюции «обвязки» (harness) — набора промптов, параметров и стратегий оценки. Такой подход позволяет значительно повысить производительность моделей на конкретных задачах без изменения весов самой нейросети, используя автоматизированный поиск оптимальных конфигураций для достижения целевых метрик качества в реальных бизнес-сценариях. arXiv · Машинное обучение Повышение устойчивости нейросетевых алгоритмов реконструкции данных Исследователи представили новый фреймворк для решения обратных задач в машинном обучении, использующий методы дистрибутивно-робастной оптимизации (DRO). Подход позволяет нейросетям сохранять точность реконструкции даже при значительных отклонениях характеристик шума в тестовых данных от тех, что использовались при обучении, решая проблему слабой обобщающей способности стандартных моделей в условиях изменчивой среды. arXiv · Машинное обучение Новый метод оптимизации градиента для ускорения обучения нейросетей Исследователи представили метод Stochastic Gradient Optimization with Model-Assisted Sampling, направленный на снижение дисперсии при оценке стохастического градиента. Новый подход позволяет эффективнее балансировать между скоростью сходимости и качеством обобщения моделей, минимизируя шум, неизбежно возникающий при использовании стандартных мини-пакетных методов обучения в глубоком обучении. arXiv · Машинное обучение Повышение устойчивости диффузионных моделей к зашумленным данным Исследователи предложили новый метод обучения диффузионных моделей, который делает их более устойчивыми к загрязненным обучающим выборкам. Традиционный подход, основанный на минимизации среднеквадратичной ошибки (MSE), часто оказывается чувствительным к выбросам и некачественным данным, что снижает итоговое качество генерации контента. Hacker News · Обучение и дообучение Дистилляция знаний из закрытых LLM: новый подход к обучению компактных моделей Исследователи представили метод дистилляции знаний из «черных ящиков» — проприетарных больших языковых моделей — для обучения более компактных и эффективных нейросетей. Подход позволяет переносить сложные логические способности и лингвистические навыки от гигантских моделей к меньшим архитектурам, сохраняя высокую производительность при значительном снижении требований к вычислительным ресурсам и затратам на инференс. arXiv · Машинное обучение Новый метод обучения с подкреплением для задач с разреженными наградами Исследователи представили метод Success Visitation Matching, решающий проблему неэффективного обучения моделей в условиях разреженных наград. В стандартных сценариях обучения с подкреплением агент получает сигнал о полезности действия только при достижении конечной цели, что делает процесс поиска оптимальной стратегии крайне медленным и нестабильным. Новый подход позволяет модели лучше распределять кредит за промежуточные действия, опираясь на вероятность посещения состояний, ведущих к успеху. arXiv · Исследования и наука Новый метод Reflow с выравниванием маргинальных распределений ускоряет генерацию моделей Исследователи представили метод Reflow с выравниванием маргинальных распределений (Marginal Distribution Alignment), направленный на ускорение генерации в диффузионных моделях. Новый подход решает проблему неточности дискретизации обыкновенных дифференциальных уравнений (ОДУ), позволяя сократить количество шагов выборки при сохранении высокого качества генерации, что критически важно для эффективного инференса современных генеративных систем. arXiv · Машинное обучение Метод автоматической замены фона для повышения устойчивости нейросетей Исследователи представили новый метод борьбы со «случайными корреляциями» в компьютерном зрении, которые заставляют модели опираться на нерелевантные детали фона вместо ключевых объектов. Автоматическая замена фонового изображения в процессе обучения позволяет нейросетям игнорировать контекстный «шум» и фокусироваться на причинно-следственных признаках, что значительно повышает точность классификации при работе с новыми, нетипичными данными.

← Все материалы