arXiv · 18.06.2026 ·Машинное обучение

FreeStyle: новый метод разделения стиля и контента при генерации изображений

Исследователи представили метод FreeStyle, направленный на решение проблемы разделения стиля и контента при генерации изображений по двум разным референсам. Основная сложность подобных систем заключается в необходимости сохранять структуру и семантику исходного контента, одновременно перенимая визуальную стилистику другого изображения, не допуская при этом «утечки» смысловых элементов из стилевого референса.

Авторы работы предложили подход, основанный на использовании сообщества LoRA-адаптеров (Low-Rank Adaptation). Метод позволяет эффективно извлекать и комбинировать стилевые признаки, минимизируя искажения, которые часто возникают при попытке совместить разнородные визуальные данные. В отличие от стандартных подходов, FreeStyle лучше справляется с балансом между точностью следования текстовой инструкции и визуальной верностью обоим источникам.

Технология опирается на предварительно обученные модели и позволяет гибко управлять процессом синтеза без необходимости переобучения базовой архитектуры под каждую задачу. Это открывает новые возможности для создания контента, где требуется строгий контроль над композицией при сохранении заданного художественного оформления, что актуально для задач дизайна, рекламы и генеративного искусства.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение ProductConsistency: новый метод сохранения идентичности объектов при редактировании изображений Исследователи представили метод ProductConsistency, направленный на решение проблемы потери деталей при редактировании изображений с помощью текстовых инструкций. Современные модели часто искажают ключевые характеристики товаров, такие как брендинг, специфические элементы дизайна и текстовые надписи, когда пользователь запрашивает изменение фона или окружения. Новый подход позволяет сохранять визуальную идентичность продукта, что критически важно для коммерческого использования ИИ в маркетинге и электронной коммерции. arXiv · Исследования и наука Метод семантического браузинга для управления разнообразием генерации изображений Исследователи представили новый подход к генерации изображений под названием «семантический браузинг» (Semantic Browsing). Современные диффузионные модели демонстрируют высокую точность следования текстовым запросам, однако часто страдают от низкой вариативности результатов. При попытке разнообразить генерацию существующие методы обычно вносят случайные изменения, которые не несут смысловой нагрузки и не позволяют пользователю осознанно управлять визуальными характеристиками объекта. arXiv · Машинное обучение DanceOPD: новый метод дистилляции для объединения навыков генерации изображений Исследователи представили DanceOPD — метод генеративной дистилляции полей (Generative Field Distillation), решающий проблему конфликтов между различными задачами генерации изображений. Технология позволяет объединить в одной модели возможности создания изображений по тексту, локального и глобального редактирования, которые ранее часто мешали друг другу, снижая общее качество работы нейросетей при попытке совместить эти функции. arXiv · Модели и релизы Новый метод улучшения генерации изображений по тексту Исследователи предложили новый подход к дообучению моделей генерации изображений по тексту. В статье на arXiv представлен метод STAR (SpatioTemporal Adaptive Reward Allocation), который учитывает временную и пространственную структуру процесса генерации. Hacker News · Исследования и наука Сжатие нейронных текстур с помощью гиперсетей Исследователи представили метод сжатия текстур, использующий гиперсети для генерации весов нейронных сетей, отвечающих за декодирование графических данных. Новый подход позволяет значительно уменьшить объем памяти, необходимой для хранения высококачественных текстур в графических движках, сохраняя при этом высокую визуальную точность. Технология открывает новые возможности для оптимизации рендеринга в реальном времени и работы с тяжелыми графическими ассетами. arXiv · Машинное обучение Метод TILDE для удаления концептов из диффузионных моделей Исследователи представили TILDE (TILt-based Distributional Erasure) — новый метод «забывания» концептов в диффузионных моделях генерации изображений. Технология позволяет эффективно удалять нежелательные объекты или стили из обученных моделей, сохраняя при этом общее качество генерации и избегая деградации весов, что критически важно для соблюдения авторских прав, защиты приватности и соответствия стандартам безопасности при развертывании систем. arXiv · Машинное обучение Метод семантической коррекции для авторегрессионных визуальных моделей Исследователи представили новый подход к повышению качества генерации изображений и видео в авторегрессионных визуальных моделях (AVM). Основная проблема таких систем заключается в многомасштабном подходе к синтезу: процесс разбивается на дискретные этапы с разной степенью детализации, из-за чего семантические ошибки, допущенные на ранних стадиях, накапливаются и приводят к искажениям в финальном результате. Hacker News · Исследования и наука InfiniteDiffusion: новый метод бесконечной генерации изображений Исследователи представили InfiniteDiffusion — архитектурный подход, позволяющий создавать визуальный контент бесконечного размера с помощью диффузионных моделей. Метод решает проблему ограничений фиксированного разрешения, обеспечивая плавную генерацию новых областей изображения без потери связности и артефактов на стыках, что открывает новые возможности для создания панорамных сцен и детализированных текстур в реальном времени. arXiv · Машинное обучение Appearance Pointers: новый метод точного управления генерацией в Diffusion Transformers Исследователи представили метод Appearance Pointers, позволяющий добиться высокой точности при генерации изображений с помощью Diffusion Transformers (DiT). Технология решает проблему ограниченного контроля текстовых промптов, внедряя механизм указателей для локального управления объектами, материалами и пространственным расположением элементов. Это позволяет пользователям задавать конкретные визуальные атрибуты для отдельных областей кадра без потери общей целостности композиции. arXiv · Машинное обучение Новый метод аугментации данных с помощью диффузионных моделей Исследователи представили метод аугментации данных для семантической сегментации, решающий проблему нехватки редких объектов и визуального разнообразия. Алгоритм использует диффузионные модели для генерации синтетических данных, сохраняя при этом высокую точность разметки. Подход опирается на оценку неопределенности, что позволяет выборочно обновлять области изображения, минимизируя риск рассогласования между сгенерированными пикселями и исходными масками сегментации.

← Все материалы