Исследователи представили Theoria — архитектуру для верификации ответов ИИ, которая устраняет разрыв между строгими формальными доказательствами и субъективными оценками LLM-судей. Система преобразует предложенное решение в неформальные логические состояния и проверяет их на согласованность, обеспечивая прозрачный и аудируемый процесс подтверждения правильности выводов модели, что критически важно для задач, требующих высокой точности рассуждений.
Традиционные методы оценки часто полагаются либо на узкоспециализированные формальные системы, которые не применимы к большинству реальных задач, либо на «судей» в лице других LLM. Последние часто выдают непрозрачные оценки и сами подвержены галлюцинациям. Theoria предлагает промежуточный подход: вместо оценки итогового результата система анализирует промежуточные этапы рассуждения, проверяя их на логическую допустимость и возможность переписывания.
Этот метод позволяет проводить аудит процесса мышления модели после завершения генерации. Использование верификации через переписывание состояний (rewrite-acceptability) помогает выявлять ошибки в логических цепочках, которые обычно пропускают стандартные методы тестирования. Такой подход повышает надежность ИИ-систем в сложных доменах, где цена ошибки высока, а формальная верификация невозможна из-за неструктурированного характера данных.
Ключевые факты
- Theoria использует архитектуру верификации через проверку допустимости переписанных логических состояний.
- Система решает проблему непрозрачности оценок, присущую методам с использованием LLM-судей.
- Метод обеспечивает аудируемость рассуждений, позволяя отследить, на каком этапе модель допустила логическую ошибку.
- Архитектура расширяет возможности проверки ответов за пределы узких областей, доступных формальным доказателям.