Новый метод обучения для мультимодального математического мышления

arXiv · Машинное обучение Новый метод обучения мультимодальных моделей через разделение восприятия и рассуждения Исследователи представили метод обучения мультимодальных моделей, который решает проблему «коротких путей» при использовании самодистилляции. Традиционный подход, при котором модель обучается на собственных результатах с опорой на эталонные данные, часто приводит к тому, что мультимодальные системы игнорируют визуальный контекст, полагаясь исключительно на текстовые подсказки. Новый алгоритм разделяет процессы восприятия изображения и логического рассуждения, что заставляет модель учитывать визуальные признаки как равноправный источник информации.

arXiv · Исследования и наука Новый метод для мультимодального разрешения кореферентности без предварительного обучения Исследователи предложили новый подход Plug-and-Adapt для мультимодального разрешения кореферентности (MCR), который не требует предварительного обучения на аннотированных данных. В статье на arXiv показано, что визуальная информация помогает устранять неоднозначности в тексте, что значительно повышает точность системы.

arXiv · Исследования и наука MentalThink: новый метод визуально-символического мышления для мультимодальных моделей Исследователи представили MentalThink — парадигму, наделяющую мультимодальные LLM способностью к «ментальной» визуализации через генерацию SVG-кода. Модель использует векторную графику как промежуточное звено для многошаговых рассуждений, что позволяет ей структурировать визуальные данные, выполнять их рендеринг и интерпретировать результат для решения сложных задач, требующих пространственного мышления и логического вывода.

arXiv · Исследования и наука Масштабируемое визуальное предобучение для развития языковых моделей Исследователи представили новый подход к предобучению нейросетей, который интегрирует визуальные данные — графики, формулы и макеты страниц — в процесс обучения языковых моделей. Текущие методы часто игнорируют визуальный контекст, ограничиваясь текстовыми корпусами, что лишает модели доступа к критически важной информации, передаваемой через структуру и визуальные элементы документов.

arXiv · Исследования и наука Новый метод обучения LVLM через визуально обоснованную саморефлексию Исследователи представили метод обучения мультимодальных моделей (LVLM), который улучшает их способность к саморефлексии через подкрепление (RL). В отличие от стандартных моделей, которые часто игнорируют визуальные данные при исправлении ошибок, новый подход заставляет нейросеть опираться на исходное изображение при анализе цепочки рассуждений, что значительно повышает точность коррекции логических выводов.

arXiv · Исследования и наука Метод MIRROR улучшает визуальные рассуждения мультимодальных моделей Исследователи представили метод MIRROR, направленный на устранение разрыва в логических способностях мультимодальных моделей (VLM). В отличие от LLM, VLM часто демонстрируют нестабильные результаты при работе с визуальными данными, даже если задача имеет текстовый эквивалент. Новый подход обучает модели сопоставлять и интегрировать информацию из различных представлений — текста, диаграмм и их комбинаций — для повышения точности рассуждений.

arXiv · Исследования и наука Исследование возможностей мультимодального Chain-of-Thought Исследователи проанализировали эффективность метода пошаговых рассуждений (Chain-of-Thought, CoT) в мультимодальных моделях. Несмотря на то что CoT стал стандартом для улучшения логических способностей текстовых LLM, его влияние на задачи, требующие обработки изображений и других визуальных данных, до сих пор оставалось недостаточно изученным.

arXiv · Исследования и наука Новый метод обучения разреженных автокодировщиков для мультимодальных моделей Исследователи представили метод структурированных разреженных автокодировщиков (SAE), решающий проблему фрагментации концептов в мультимодальных моделях. Традиционные SAE часто не могут связать визуальные и текстовые представления, выделяя разрозненные признаки. Новый подход обеспечивает согласованность концептов между модальностями, что критически важно для интерпретируемости нейросетей и понимания того, как модели связывают изображения с текстом.

arXiv · Исследования и наука AIR: новый подход к адаптивному рассуждению в мультимодальных моделях Исследователи представили метод Adaptive Interleaved Reasoning (AIR), направленный на улучшение логических способностей мультимодальных больших языковых моделей (MLLM). В отличие от существующих решений, которые полагаются на жестко заданные эвристики для обработки визуальных данных, новый подход позволяет моделям динамически использовать код для построения цепочек рассуждений. Это дает возможность системе самостоятельно определять, когда и как применять программные инструменты для решения сложных задач, требующих глубокого анализа изображений.

arXiv · Инференс и железо Оптимизация визуального инференса через проактивную маршрутизацию запросов Исследователи предложили метод повышения эффективности мультимодальных моделей при выполнении сложных визуальных задач. Система использует связку из компактной «черновой» модели и крупной целевой модели, применяя адаптивный механизм маршрутизации. В зависимости от сложности запроса, система автоматически определяет, какая модель должна обрабатывать данные, что позволяет сократить избыточные вычисления и ускорить процесс рассуждения.

Новый метод обучения для мультимодального математического мышления

Похожие материалы