Исследователи представили метод обучения мультимодальных моделей (LVLM), который улучшает их способность к саморефлексии через подкрепление (RL). В отличие от стандартных моделей, которые часто игнорируют визуальные данные при исправлении ошибок, новый подход заставляет нейросеть опираться на исходное изображение при анализе цепочки рассуждений, что значительно повышает точность коррекции логических выводов.

Проблема текущих моделей заключается в том, что процесс «саморефлексии» часто протекает исключительно в текстовом поле. Модель может заметить логическую нестыковку, но при попытке её исправить она не обращается повторно к визуальному контексту, что приводит к галлюцинациям или повторению ошибок. Предложенный алгоритм интегрирует визуальные признаки непосредственно в цикл обратной связи, позволяя модели «видеть» свои промахи в привязке к конкретным объектам на изображении.

Этот подход использует обучение с подкреплением для оптимизации процесса генерации цепочек мыслей (CoT). Модель получает штрафы за рассуждения, которые противоречат визуальным данным, и поощрения за успешную верификацию своих утверждений через повторный анализ картинки. Это делает процесс мышления более устойчивым к ошибкам восприятия и повышает качество ответов в задачах, требующих глубокого понимания визуального контента.

Ключевые факты

  • Метод фокусируется на исправлении ошибок в цепочках рассуждений (Chain-of-Thought) через привязку к визуальным данным.
  • Алгоритм использует обучение с подкреплением для корректировки поведения модели при саморефлексии.
  • Основная цель — минимизировать галлюцинации, возникающие из-за игнорирования визуальных признаков при исправлении текстовых ответов.
  • Исследование направлено на повышение точности LVLM в задачах, требующих сложного мультимодального анализа и самоконтроля.