arXiv · 23.06.2026 ·Исследования и наука

Метод IV-CoT улучшает точность генерации изображений по текстовым промптам

Исследователи представили метод Implicit Visual Chain-of-Thought (IV-CoT), решающий проблему неточного следования сложным текстовым инструкциям в мультимодальных моделях. Новый подход разделяет этапы структурного планирования и визуального рендеринга, что позволяет нейросетям точнее соблюдать количество объектов, их пространственное расположение и атрибутивные связи, которые часто игнорируются при стандартной генерации изображений.

Современные мультимодальные модели (MLLM) часто сталкиваются с «запутыванием» понятий, когда модель пытается одновременно интерпретировать структуру сцены и генерировать её визуальные детали. IV-CoT вводит промежуточный этап неявного визуального «рассуждения», который формирует каркас изображения до начала отрисовки пикселей. Это позволяет модели лучше понимать иерархию объектов и их взаимосвязи в пространстве.

Применение данного метода значительно повышает качество следования промптам в задачах, требующих высокой точности компоновки. В отличие от традиционных подходов, где модель полагается на прямое отображение текста в изображение, IV-CoT создает промежуточное представление, которое служит направляющей схемой для генератора. Это снижает количество ошибок, связанных с искажением атрибутов или пропуском объектов при сложных запросах.

Ключевые факты

Метод IV-CoT разделяет процессы структурного планирования и визуального рендеринга для повышения точности.
Основная проблема существующих MLLM — неспособность корректно обрабатывать пространственные отношения и количество объектов.
Подход позволяет лучше соблюдать атрибутивные привязки и общую компоновку сцены, заданную пользователем.
Исследование направлено на устранение ограничений, связанных с запутанностью условий в современных генеративных моделях.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы