Исследователи представили новый подход к повышению качества генерации изображений и видео в авторегрессионных визуальных моделях (AVM). Основная проблема таких систем заключается в многомасштабном подходе к синтезу: процесс разбивается на дискретные этапы с разной степенью детализации, из-за чего семантические ошибки, допущенные на ранних стадиях, накапливаются и приводят к искажениям в финальном результате.
Предложенный метод семантической коррекции работает без необходимости дополнительного обучения модели. Алгоритм анализирует процесс генерации на лету, выявляя несоответствия между уровнями детализации. Это позволяет корректировать структуру изображения в процессе построения последовательности, не прибегая к переобучению весов или сложным итеративным процедурам доводки.
Технология обеспечивает более высокую точность следования текстовому запросу и улучшает визуальную связность объектов. Метод демонстрирует эффективность в задачах, где критически важна семантическая точность, позволяя минимизировать артефакты, характерные для авторегрессионных подходов к генерации визуального контента.