arXiv · 17.06.2026 ·Машинное обучение

Новый метод обучения мультимодальных моделей через разделение восприятия и рассуждения

Исследователи представили метод обучения мультимодальных моделей, который решает проблему «коротких путей» при использовании самодистилляции. Традиционный подход, при котором модель обучается на собственных результатах с опорой на эталонные данные, часто приводит к тому, что мультимодальные системы игнорируют визуальный контекст, полагаясь исключительно на текстовые подсказки. Новый алгоритм разделяет процессы восприятия изображения и логического рассуждения, что заставляет модель учитывать визуальные признаки как равноправный источник информации.

В основе предложенного подхода лежит механизм, который предотвращает перекос в сторону текстовых токенов при генерации ответов. В процессе обучения модель учится сопоставлять визуальные данные с логическими выводами, не допуская упрощенных стратегий, где текстовый контекст доминирует над содержанием изображения. Это позволяет повысить точность ответов в задачах, требующих глубокого анализа визуальных сцен, где ранее модели демонстрировали склонность к галлюцинациям или игнорированию деталей.

Данное исследование предлагает решение для повышения надежности мультимодальных систем, которые часто сталкиваются с трудностями при интерпретации сложных изображений. Разделение этапов восприятия и рассуждения позволяет эффективнее использовать ресурсы обучения, обеспечивая более глубокую интеграцию визуальной и текстовой модальностей. Результаты показывают, что такой подход делает модели более устойчивыми к ошибкам, возникающим из-за неверной приоритизации входных данных.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы