Исследователи представили метод Multi-Turn Reflective Masking (MTRM), направленный на повышение способности диффузионных моделей к логическому мышлению. Традиционные диффузионные модели часто сталкиваются с трудностями при решении задач, требующих многошагового планирования или последовательного вывода, так как они генерируют данные итеративно, опираясь на зашумленные представления. Новый подход меняет процесс обучения, внедряя механизм рефлексии в структуру маскирования.

В рамках MTRM модель обучается не просто восстанавливать пропущенные фрагменты данных, а последовательно анализировать и корректировать свои промежуточные результаты в ходе нескольких итераций. Метод заставляет нейросеть «переосмысливать» сгенерированные токены или признаки на каждом этапе, что позволяет исправлять ошибки до того, как они закрепятся в финальном ответе. Это приближает процесс генерации к цепочке рассуждений, характерной для языковых моделей, но адаптированной для архитектур диффузионного типа.

Эксперименты показали, что использование рефлексивного маскирования значительно повышает точность моделей в задачах, требующих соблюдения строгих логических ограничений и пространственных отношений. Метод не требует изменения архитектуры самой модели, что делает его перспективным инструментом для улучшения качества генерации в областях, где критически важна последовательность действий, например, при создании сложных визуальных композиций или структурированного контента.