Исследователи проанализировали эффективность метода пошаговых рассуждений (Chain-of-Thought, CoT) в мультимодальных моделях. Несмотря на то что CoT стал стандартом для улучшения логических способностей текстовых LLM, его влияние на задачи, требующие обработки изображений и других визуальных данных, до сих пор оставалось недостаточно изученным.
В работе систематизированы сценарии, в которых мультимодальный CoT демонстрирует значительный прирост точности, а также выявлены критические точки отказа. Авторы показывают, что способность модели «рассуждать» вслух при анализе визуального контента не всегда коррелирует с качеством итогового ответа. В ряде случаев избыточные промежуточные шаги могут приводить к накоплению ошибок, особенно при интерпретации сложных графиков или детализированных изображений.
Результаты исследования подчеркивают разницу между способностью модели описывать визуальные объекты и её умением логически связывать эти описания для решения многоступенчатых задач. Полученные данные помогают лучше понять ограничения текущих архитектур при работе с мультимодальными данными и указывают на необходимость развития более эффективных методов обучения, которые позволят моделям точнее фокусироваться на релевантных визуальных признаках без потери логической последовательности.