arXiv · 16.06.2026 ·Модели и релизы

Новый метод улучшения генерации изображений по тексту

Исследователи предложили новый подход к дообучению моделей генерации изображений по тексту. В статье на arXiv представлен метод STAR (SpatioTemporal Adaptive Reward Allocation), который учитывает временную и пространственную структуру процесса генерации.

Традиционные методы дообучения с подкреплением (RL) применяют одно и то же вознаграждение ко всему процессу генерации. В отличие от них, STAR адаптивно распределяет вознаграждение, учитывая, что разные этапы денойзинга отвечают за разные стадии генерации.

Авторы утверждают, что их метод позволяет более точно контролировать качество генерируемых изображений. В статье приведены результаты экспериментов, демонстрирующие улучшение качества генерации по сравнению с традиционными подходами.

Разработка может найти применение в улучшении существующих моделей генерации изображений, таких как Stable Diffusion или DALL-E, а также в других задачах компьютерного зрения.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Исследования и наука DiT-Reward: использование генеративных моделей для оценки качества изображений Исследователи представили метод DiT-Reward, который позволяет использовать предобученные диффузионные трансформеры для оценки качества генерации изображений. Вместо создания отдельной системы для проверки результатов, авторы адаптировали архитектуру генеративной модели под задачу предсказания вознаграждения (reward modeling). Это позволяет системе точнее определять, насколько сгенерированное изображение соответствует заданному текстовому описанию. arXiv · Машинное обучение Оптимизация визуальных генеративных моделей через распределенные награды Исследователи представили новый метод дообучения генеративных моделей, использующий распределенные награды вместо традиционных пообразных функций. Подход позволяет избежать «взлома наград» (reward hacking), при котором модели теряют разнообразие контента и создают визуальные артефакты. Новый фреймворк обеспечивает более точное соответствие целевым характеристикам, сохраняя при этом высокое качество и вариативность генерируемых изображений в процессе обучения. arXiv · Машинное обучение Оптимизация синтетических данных для обучения компьютерного зрения Исследователи представили метод SmartSDG, направленный на устранение разрыва между синтетическими данными и реальными условиями в задачах компьютерного зрения. Использование сгенерированных изображений позволяет обходить проблему ручной разметки, однако качество моделей часто страдает из-за различий в освещении и сложности фона. Новый подход систематизирует влияние физически корректного непрямого освещения на точность распознавания объектов. arXiv · Машинное обучение Метод семантической коррекции для авторегрессионных визуальных моделей Исследователи представили новый подход к повышению качества генерации изображений и видео в авторегрессионных визуальных моделях (AVM). Основная проблема таких систем заключается в многомасштабном подходе к синтезу: процесс разбивается на дискретные этапы с разной степенью детализации, из-за чего семантические ошибки, допущенные на ранних стадиях, накапливаются и приводят к искажениям в финальном результате. arXiv · Исследования и наука Новый метод обучения видеомоделей Shell-LCC без внешних функций вознаграждения Исследователи представили метод Shell-LCC, позволяющий оптимизировать диффузионные модели для генерации видео без использования внешних моделей вознаграждения или дорогостоящего обучения с подкреплением (RLHF/DPO). Авторы доказывают, что структура данных сама по себе содержит скрытые сигналы, которые можно использовать для улучшения качества генерации, что значительно снижает вычислительные затраты и зависимость от человеческой разметки при сохранении высокой детализации контента. arXiv · Машинное обучение ProductConsistency: новый метод сохранения идентичности объектов при редактировании изображений Исследователи представили метод ProductConsistency, направленный на решение проблемы потери деталей при редактировании изображений с помощью текстовых инструкций. Современные модели часто искажают ключевые характеристики товаров, такие как брендинг, специфические элементы дизайна и текстовые надписи, когда пользователь запрашивает изменение фона или окружения. Новый подход позволяет сохранять визуальную идентичность продукта, что критически важно для коммерческого использования ИИ в маркетинге и электронной коммерции. Hacker News · Исследования и наука Прорыв в генерации моделей компьютерного зрения по текстовому описанию Исследователи демонстрируют значительный прогресс в создании систем, способных генерировать полноценные модели компьютерного зрения на основе текстовых промптов. Технология позволяет переходить от описания задачи к готовой архитектуре нейросети, минуя этапы ручного проектирования и обучения. Это открывает путь к автоматизации создания специализированных инструментов для анализа изображений, существенно снижая порог входа в разработку сложных ML-решений. arXiv · Машинное обучение On-Policy Delta Distillation: новый метод обучения моделей с подкреплением Исследователи представили метод On-Policy Delta Distillation, направленный на оптимизацию процесса пост-тренировки языковых моделей. Новый подход позволяет использовать токенизированный надзор от «учителя» для обучения «ученика», обходя ограничения традиционных моделей вознаграждения. Техника повышает эффективность обучения с подкреплением, обеспечивая более точную передачу знаний между моделями при сохранении стабильности процесса. arXiv · Машинное обучение Posterior Refinement: новый метод ускорения генерации текста в неавторегрессионных моделях Исследователи представили метод Posterior Refinement, решающий проблему низкой эффективности неавторегрессионных языковых моделей. Новый подход использует Any-Order Flow Maps для итеративного уточнения текста, позволяя моделям критиковать и перегенерировать произвольные фрагменты токенов одновременно. Это устраняет ошибки факторизации, характерные для маскированных диффузионных моделей, и значительно повышает качество генерации при сохранении высокой скорости работы. arXiv · Машинное обучение Appearance Pointers: новый метод точного управления генерацией в Diffusion Transformers Исследователи представили метод Appearance Pointers, позволяющий добиться высокой точности при генерации изображений с помощью Diffusion Transformers (DiT). Технология решает проблему ограниченного контроля текстовых промптов, внедряя механизм указателей для локального управления объектами, материалами и пространственным расположением элементов. Это позволяет пользователям задавать конкретные визуальные атрибуты для отдельных областей кадра без потери общей целостности композиции.

← Все материалы