Исследователи представили Complexity Ceiling Benchmark (CCB) — новый инструмент для оценки способности языковых моделей к последовательным рассуждениям. В отличие от стандартных тестов, CCB фиксирует семантическое содержание задачи и варьирует только глубину логической цепочки от 5 до 50 шагов. Это позволяет точно определить «потолок сложности», при достижении которого качество ответов моделей начинает стремительно деградировать.

Тестирование охватывает три ключевых домена: отслеживание состояний в пространственных задачах, манипуляции с абстрактными символьными указателями и транзитивные реляционные выводы. Такой подход изолирует способность модели к долгосрочному планированию и логической связности от её общих знаний, что дает более глубокое понимание архитектурных ограничений современных нейросетей при решении многоэтапных задач.

Результаты бенчмарка показывают, что даже передовые модели демонстрируют значительное снижение точности при увеличении глубины рассуждений. Это подчеркивает фундаментальную проблему масштабируемости логических цепочек в текущих архитектурах, где накопление ошибок на каждом этапе последовательного вывода приводит к потере контекста и неверным итоговым результатам.

Ключевые факты

  • Бенчмарк CCB оценивает деградацию логики моделей при увеличении количества последовательных шагов (N) в диапазоне от 5 до 50.
  • Исследование сфокусировано на трех типах задач: пространственное отслеживание, символьное манипулирование указателями и транзитивные отношения.
  • Методология бенчмарка позволяет отделить семантическую сложность задачи от сложности процесса рассуждения.
  • Основная цель CCB — выявление критических порогов глубины, после которых вероятность ошибки модели возрастает экспоненциально.