Исследователи представили DanceOPD — метод генеративной дистилляции полей (Generative Field Distillation), решающий проблему конфликтов между различными задачами генерации изображений. Технология позволяет объединить в одной модели возможности создания изображений по тексту, локального и глобального редактирования, которые ранее часто мешали друг другу, снижая общее качество работы нейросетей при попытке совместить эти функции.

Основная сложность современных диффузионных моделей заключается в том, что обучение специфическим навыкам редактирования часто приводит к деградации базовых способностей генерации по текстовому описанию. Разработчики DanceOPD предложили подход, основанный на он-полиси (on-policy) обучении, который позволяет эффективно выравнивать эти противоречивые задачи внутри единой архитектуры, сохраняя высокую точность исполнения для каждого типа запросов.

Метод использует дистилляцию полей для передачи знаний между специализированными компонентами модели, что минимизирует взаимные помехи при выполнении локальных правок и глобальных изменений композиции. Это позволяет создавать более универсальные инструменты для работы с визуальным контентом, где пользователь может комбинировать генерацию с нуля и последующую коррекцию без потери качества исходного изображения.

Ключевые факты

  • DanceOPD решает проблему конфликта между генерацией по тексту (T2I) и задачами редактирования.
  • Метод использует технику on-policy генеративной дистилляции полей для синхронизации различных навыков.
  • Подход устраняет деградацию качества при совмещении локального и глобального редактирования.
  • Исследование направлено на создание унифицированных моделей, способных выполнять сложные визуальные задачи в рамках одного пайплайна.