Исследователи предложили новый подход к обучению мультимодальных моделей для решения математических задач. В статье на arXiv представлен метод MathVis-Fine, который учитывает сложные зависимости между текстом и изображениями в процессе решения задач.
Традиционные подходы, такие как Chain-of-Thought (CoT), часто рассматривают визуальные данные как вспомогательные сигналы, что приводит к неточности в математическом мышлении. MathVis-Fine решает эту проблему с помощью прогрессивного обучения, направленного на зависимости.
Метод включает два ключевых этапа: сначала модель обучается на визуальных данных, а затем на тексте, что позволяет лучше интегрировать оба типа информации. Это улучшает точность и эффективность решения математических задач, особенно в сложных сценариях.
Исследование показывает, что MathVis-Fine превосходит существующие методы, демонстрируя более высокую точность и надежность в мультимодальном математическом мышлении. Статья доступна на arXiv для дальнейшего изучения и применения.