Исследователи представили метод Adaptive Interleaved Reasoning (AIR), направленный на улучшение логических способностей мультимодальных больших языковых моделей (MLLM). В отличие от существующих решений, которые полагаются на жестко заданные эвристики для обработки визуальных данных, новый подход позволяет моделям динамически использовать код для построения цепочек рассуждений. Это дает возможность системе самостоятельно определять, когда и как применять программные инструменты для решения сложных задач, требующих глубокого анализа изображений.

Ключевая особенность AIR заключается в способности модели чередовать текстовые рассуждения с генерацией и исполнением кода в процессе обработки мультимодального контекста. Такой подход преодолевает ограничения традиционных систем, которые часто ограничены узким набором инструментов для визуального восприятия. Интеграция кода позволяет моделям выполнять вычисления, проверять гипотезы и корректировать свои выводы на лету, что значительно повышает точность ответов в задачах, где требуется не только распознавание объектов, но и логический вывод на основе визуальных данных.

Разработка метода AIR отражает текущий тренд в индустрии, связанный с переходом от простых моделей «вопрос-ответ» к системам, способным к многошаговому планированию и самокоррекции. Использование кода как промежуточного звена в процессе рассуждений позволяет моделям лучше справляться с задачами, требующими математической точности или пространственного анализа. Данное исследование открывает новые возможности для создания более автономных и надежных мультимодальных агентов, способных эффективно взаимодействовать с визуальной средой без необходимости в постоянном внешнем управлении.