Исследователи представили метод обучения мультимодальных моделей, который решает проблему «коротких путей» при использовании самодистилляции. Традиционный подход, при котором модель обучается на собственных результатах с опорой на эталонные данные, часто приводит к тому, что мультимодальные системы игнорируют визуальный контекст, полагаясь исключительно на текстовые подсказки. Новый алгоритм разделяет процессы восприятия изображения и логического рассуждения, что заставляет модель учитывать визуальные признаки как равноправный источник информации.
В основе предложенного подхода лежит механизм, который предотвращает перекос в сторону текстовых токенов при генерации ответов. В процессе обучения модель учится сопоставлять визуальные данные с логическими выводами, не допуская упрощенных стратегий, где текстовый контекст доминирует над содержанием изображения. Это позволяет повысить точность ответов в задачах, требующих глубокого анализа визуальных сцен, где ранее модели демонстрировали склонность к галлюцинациям или игнорированию деталей.
Данное исследование предлагает решение для повышения надежности мультимодальных систем, которые часто сталкиваются с трудностями при интерпретации сложных изображений. Разделение этапов восприятия и рассуждения позволяет эффективнее использовать ресурсы обучения, обеспечивая более глубокую интеграцию визуальной и текстовой модальностей. Результаты показывают, что такой подход делает модели более устойчивыми к ошибкам, возникающим из-за неверной приоритизации входных данных.