Исследователи представили новый подход к обучению генеративно-состязательных сетей (GAN), интегрировав в них архитектуру Transformer. Метод позволяет эффективно масштабировать генерацию изображений высокого разрешения, преодолевая традиционные ограничения GAN в стабильности обучения и качестве синтеза данных. Авторы демонстрируют, что сочетание механизмов внимания с состязательным обучением обеспечивает конкурентоспособные результаты по сравнению с современными диффузионными моделями.

Традиционные GAN часто сталкиваются с проблемой коллапса моды и нестабильности при увеличении параметров модели. Использование трансформерных блоков позволяет лучше улавливать долгосрочные зависимости в структуре изображений, что критически важно для генерации сложных визуальных сцен. Новый подход оптимизирует процесс обучения, делая его более предсказуемым при работе с большими наборами данных.

Интеграция трансформеров в GAN-фреймворк открывает возможности для создания более быстрых генеративных систем. В отличие от диффузионных моделей, требующих многократных итераций для получения результата, предложенная архитектура сохраняет преимущество GAN в виде одношаговой генерации, что значительно снижает вычислительные затраты при инференсе.

Ключевые факты

  • Метод объединяет архитектуру Transformer с принципами состязательного обучения для улучшения стабильности генерации.
  • Архитектура демонстрирует высокую эффективность при масштабировании на большие объемы визуальных данных.
  • Модель решает проблему коллапса моды, характерную для классических GAN, за счет механизмов внимания.
  • Подход обеспечивает высокую скорость генерации изображений, сопоставимую с классическими GAN, при качестве, близком к диффузионным моделям.