Исследователи представили новый метод решения задач из бенчмарка ARC-AGI-2, фокусирующийся на отборе правильных цепочек рассуждений вместо простого их генерирования. Алгоритм использует «целостное суждение о следах» (holistic trace judging), рассматривая различные модальности рассуждений как операторы поиска. Это позволяет эффективно фильтровать ошибочные, но логически связные ответы, которые часто выдают современные языковые модели.

Основная проблема текущих LLM при работе с абстрактными задачами заключается в их склонности к «уверенным заблуждениям». Модели способны строить внутренне непротиворечивые цепочки рассуждений, которые при этом не приводят к верному результату. Предложенный подход переносит акцент с генерации текста на оценку качества процесса мышления, что критически важно для задач, требующих визуального и логического вывода в условиях ограниченного количества примеров (few-shot).

Система разбивает процесс решения на поиск по модальностям, где каждая ветка рассуждений проверяется на соответствие условиям задачи. Такой метод позволяет отсеивать галлюцинации на ранних этапах, повышая точность модели в задачах, где важна не только беглость речи, но и строгое соблюдение правил абстрактной логики.

Ключевые факты

  • Метод разработан специально для бенчмарка ARC-AGI-2, оценивающего способности ИИ к абстрактному визуальному мышлению.
  • Ключевой принцип работы — использование «целостного суждения о следах» для оценки качества сгенерированных цепочек рассуждений.
  • Система классифицирует модальности рассуждений как операторы поиска, что позволяет систематизировать процесс генерации вариантов ответа.
  • Решение направлено на преодоление проблемы «уверенных заблуждений», при которых модель генерирует логически связный, но фактически неверный ответ.