Исследование выявило критическую проблему в использовании LLM для проверки математических доказательств. Автоматизированный верификатор на базе ИИ оценил сгенерированные доказательства как практически идеальные, однако экспертная проверка показала, что лишь 17% из них являются верными. Этот результат подчеркивает опасность чрезмерного доверия к системам, которые обучались оценивать правдоподобность текста, а не его логическую строгость.

Проблема заключается в том, что современные модели часто имитируют стиль и структуру академических работ, создавая иллюзию корректности. Верификаторы, обученные на аналогичных данных, склонны подтверждать логические цепочки, которые выглядят убедительно для алгоритма, но содержат фундаментальные ошибки в вычислениях или доказательной базе. Это создает «петлю галлюцинаций», где модель и проверяющий её инструмент взаимно подтверждают ошибочные выводы.

Ситуация ставит под сомнение надежность существующих бенчмарков, основанных на автоматической оценке. Если верификаторы не способны отличить корректное доказательство от правдоподобного текста, использование таких систем в научных исследованиях или образовательных процессах требует жесткого человеческого контроля. Текущие методы оценки требуют пересмотра в сторону более глубокого анализа логических связей, а не простого сопоставления паттернов.

Ключевые факты

  • ИИ-верификатор оценил математические доказательства как «почти идеальные».
  • Экспертный аудит показал, что только 17% проверенных доказательств были фактически верными.
  • Основная причина ошибки — способность моделей генерировать убедительный, но логически неверный контент.
  • Автоматизированные системы оценки склонны к подтверждению галлюцинаций из-за схожести стилистики с обучающими данными.