Исследователи представили OrbitQuant — метод посттренировочного квантования (PTQ), оптимизирующий работу диффузионных трансформеров (DiT) без необходимости подстройки под конкретные данные. Решение устраняет проблему нестабильности активаций при смене временных шагов и промптов, позволяя значительно ускорить инференс тяжелых моделей для генерации изображений и видео без потери качества и переобучения под каждую новую архитектуру.
Основная сложность существующих методов квантования для DiT заключается в динамическом изменении активаций в зависимости от параметров генерации. Традиционные подходы требуют калибровки на специфических наборах данных для каждой модели, что делает процесс внедрения трудоемким. OrbitQuant предлагает универсальный подход, который адаптируется к архитектурным особенностям трансформеров, сохраняя точность аппроксимации весов при сжатии модели.
Технология ориентирована на снижение вычислительных затрат при развертывании генеративных систем. За счет исключения этапа перекалибровки метод позволяет эффективно масштабировать использование DiT-моделей в продакшене, сокращая требования к памяти и ускоряя генерацию контента. Это делает возможным запуск высокопроизводительных моделей на менее мощном оборудовании без существенного снижения визуального качества результатов.
Ключевые факты
- OrbitQuant разработан как метод data-agnostic, не требующий калибровки на специфических данных для каждой новой модели.
- Метод решает проблему дрейфа активаций, возникающего при изменении временных шагов (timesteps) и условий промптов в диффузионных трансформерах.
- Технология применима как для генерации изображений, так и для видео, сохраняя высокую точность при сжатии параметров.
- Подход позволяет избежать повторного обучения или донастройки при смене чекпоинтов или модальностей генерации.