В актуальном обзоре математических возможностей современных языковых моделей анализируется прогресс в решении задач, требующих формальной логики и глубоких вычислений. Исследование охватывает как классические бенчмарки, так и новые подходы к верификации ответов, где модели сталкиваются с необходимостью не просто предсказывать следующий токен, а следовать строгим правилам математического доказательства.

Ключевой фокус работы направлен на использование специализированных инструментов, таких как Lean и другие системы интерактивного доказательства теорем. Авторы отмечают, что интеграция LLM с формальными языками программирования позволяет значительно снизить количество галлюцинаций в вычислениях. Модели, обученные на синтетических данных с использованием цепочек рассуждений (Chain-of-Thought), демонстрируют кратный рост точности в олимпиадных задачах по математике по сравнению с базовыми архитектурами.

В материале также рассматриваются ограничения текущих систем. Основной проблемой остается неспособность моделей к долгосрочному планированию сложных многошаговых доказательств без внешней поддержки. Тем не менее, развитие методов обучения с подкреплением на основе обратной связи от математических решателей (solvers) указывает на переход от вероятностной генерации текста к более надежным методам логического вывода, что критически важно для применения ИИ в научных исследованиях и инженерных расчетах.