Исследователи представили метод Implicit Visual Chain-of-Thought (IV-CoT), решающий проблему неточного следования сложным текстовым инструкциям в мультимодальных моделях. Новый подход разделяет этапы структурного планирования и визуального рендеринга, что позволяет нейросетям точнее соблюдать количество объектов, их пространственное расположение и атрибутивные связи, которые часто игнорируются при стандартной генерации изображений.

Современные мультимодальные модели (MLLM) часто сталкиваются с «запутыванием» понятий, когда модель пытается одновременно интерпретировать структуру сцены и генерировать её визуальные детали. IV-CoT вводит промежуточный этап неявного визуального «рассуждения», который формирует каркас изображения до начала отрисовки пикселей. Это позволяет модели лучше понимать иерархию объектов и их взаимосвязи в пространстве.

Применение данного метода значительно повышает качество следования промптам в задачах, требующих высокой точности компоновки. В отличие от традиционных подходов, где модель полагается на прямое отображение текста в изображение, IV-CoT создает промежуточное представление, которое служит направляющей схемой для генератора. Это снижает количество ошибок, связанных с искажением атрибутов или пропуском объектов при сложных запросах.

Ключевые факты

  • Метод IV-CoT разделяет процессы структурного планирования и визуального рендеринга для повышения точности.
  • Основная проблема существующих MLLM — неспособность корректно обрабатывать пространственные отношения и количество объектов.
  • Подход позволяет лучше соблюдать атрибутивные привязки и общую компоновку сцены, заданную пользователем.
  • Исследование направлено на устранение ограничений, связанных с запутанностью условий в современных генеративных моделях.