Hacker News · 23.06.2026 ·Исследования и наука

Современное состояние математических способностей ИИ

В актуальном обзоре математических возможностей современных языковых моделей анализируется прогресс в решении задач, требующих формальной логики и глубоких вычислений. Исследование охватывает как классические бенчмарки, так и новые подходы к верификации ответов, где модели сталкиваются с необходимостью не просто предсказывать следующий токен, а следовать строгим правилам математического доказательства.

Ключевой фокус работы направлен на использование специализированных инструментов, таких как Lean и другие системы интерактивного доказательства теорем. Авторы отмечают, что интеграция LLM с формальными языками программирования позволяет значительно снизить количество галлюцинаций в вычислениях. Модели, обученные на синтетических данных с использованием цепочек рассуждений (Chain-of-Thought), демонстрируют кратный рост точности в олимпиадных задачах по математике по сравнению с базовыми архитектурами.

В материале также рассматриваются ограничения текущих систем. Основной проблемой остается неспособность моделей к долгосрочному планированию сложных многошаговых доказательств без внешней поддержки. Тем не менее, развитие методов обучения с подкреплением на основе обратной связи от математических решателей (solvers) указывает на переход от вероятностной генерации текста к более надежным методам логического вывода, что критически важно для применения ИИ в научных исследованиях и инженерных расчетах.

Источник: Hacker News

Похожие материалы

Hacker News · Исследования и наука Мелани Митчелл о непредсказуемости современных LLM Профессор Мелани Митчелл в своей статье для Yale Review анализирует феномен «зубчатого интеллекта» (jagged intelligence) у современных языковых моделей. Автор отмечает, что ИИ демонстрирует крайне неравномерные способности: системы могут блестяще справляться со сложными логическими задачами или написанием кода, но при этом совершать элементарные ошибки в простых вопросах, требующих здравого смысла или понимания физического мира. arXiv · Память и RAG Исследование: как ИИ может генерировать ценные математические доказательства Недавнее исследование, опубликованное на arXiv, рассматривает проблему генерации ценных математических доказательств с помощью ИИ. Авторы моделируют этот процесс как вложенную генерацию языка в пределе, где формальный язык F, доступный через оракул принадлежности (проверяющий доказательства), содержит ценные математические утверждения. Hacker News · Исследования и наука Математическое доказательство и логические ограничения LLM Исследователи представили работу, посвященную применению принципа открытой индукции для анализа логических возможностей больших языковых моделей. Авторы статьи исследуют, как формальные методы доказательства соотносятся с архитектурными особенностями нейросетей, работающих на основе предсказания следующего токена. В центре внимания — вопрос о том, способны ли современные модели к полноценному дедуктивному выводу или их логика ограничена вероятностным распределением данных. arXiv · Инференс и железо Как вычислительные ресурсы влияют на оценку крупных языковых моделей Исследование на arXiv показывает, что современные оценки ИИ переходят на более сложные задачи, требующие длительных траекторий с использованием инструментов и итеративного решения проблем. Это делает результаты всё более чувствительными к объёму и распределению вычислительных ресурсов во время инференса. Hacker News · Исследования и наука Исследование: насколько можно доверять LLM при анализе данных (EDA) Исследователи проанализировали применимость больших языковых моделей для проведения разведочного анализа данных (EDA). В работе оценивается способность ИИ-агентов самостоятельно выполнять стандартные этапы работы с датасетами: от первичной очистки и выявления пропусков до построения статистических гипотез и визуализации распределений. Авторы статьи сфокусировались на том, насколько точно модели интерпретируют структуру табличных данных и избегают галлюцинаций при генерации кода для анализа. Hacker News · Оценка и бенчмарки LLM достигли предела в интерпретации контринтуитивных графиков Исследователи проанализировали способности современных языковых моделей в интерпретации визуальных данных с помощью бенчмарка Bluffbench. Тестирование показало, что топовые модели достигли уровня насыщения: они успешно распознают закономерности даже на контринтуитивных графиках, где визуальное представление данных противоречит логическим выводам. Это означает, что текущие архитектуры практически полностью освоили базовые навыки визуальной аналитики, заложенные в этот набор тестов. arXiv · Исследования и наука Исследование: риски использования LLM в поиске причинно-следственных связей Новая научная работа анализирует эффективность использования больших языковых моделей для задач поиска причинно-следственных связей (causal discovery). Исследователи изучили подходы, при которых модели просят определять направления связей, предлагать структуру графов или использовать их выводы в качестве априорных ограничений для статистических алгоритмов. Основной вывод заключается в том, что текущие методы часто подменяют строгий анализ данных простыми текстовыми ассоциациями, заложенными в веса моделей. arXiv · ИИ в бизнесе Проблемы тестирования LLM-приложений в реальных условиях Исследователи проанализировали работу ИИ-ассистента для поиска недвижимости, который объединяет работу больших языковых моделей, поддержку нескольких международных рынков и динамический фронтенд. Несмотря на наличие автоматизированного набора из 1553 тестов, которые успешно проходили проверку, пользователи продолжали сталкиваться с критическими ошибками в интерфейсе. Это выявило разрыв между технической «зеленой зоной» тестов и реальным поведением системы в условиях непредсказуемых внешних данных. Hacker News · Исследования и наука Исследование раскрывает парадокс эффективности ИИ Учёные из Массачусетского технологического института (MIT) и Стэнфорда опубликовали исследование, посвящённое парадоксу эффективности ИИ. В работе, размещённой на arXiv, авторы показывают, что несмотря на значительные улучшения в производительности ИИ-моделей, их реальная эффективность в практических задачах часто не соответствует ожиданиям. arXiv · Оценка и бенчмарки Исследование: как ИИ справляется с юридическим мышлением по стандартам ЕС Исследователи из arXiv выявили пробел в оценке способностей ИИ-моделей выполнять юридическое мышление. Существующие бенчмарки фокусируются на вспомогательных задачах, а не на интерпретации правовых норм, что критически важно для применения ИИ в юриспруденции.

← Все материалы