arXiv · 28.06.2026 ·Оценка и бенчмарки

Complexity Ceiling Benchmark: как глубина рассуждений влияет на точность LLM

Исследователи представили Complexity Ceiling Benchmark (CCB) — новый инструмент для оценки способности языковых моделей к последовательным рассуждениям. В отличие от стандартных тестов, CCB фиксирует семантическое содержание задачи и варьирует только глубину логической цепочки от 5 до 50 шагов. Это позволяет точно определить «потолок сложности», при достижении которого качество ответов моделей начинает стремительно деградировать.

Тестирование охватывает три ключевых домена: отслеживание состояний в пространственных задачах, манипуляции с абстрактными символьными указателями и транзитивные реляционные выводы. Такой подход изолирует способность модели к долгосрочному планированию и логической связности от её общих знаний, что дает более глубокое понимание архитектурных ограничений современных нейросетей при решении многоэтапных задач.

Результаты бенчмарка показывают, что даже передовые модели демонстрируют значительное снижение точности при увеличении глубины рассуждений. Это подчеркивает фундаментальную проблему масштабируемости логических цепочек в текущих архитектурах, где накопление ошибок на каждом этапе последовательного вывода приводит к потере контекста и неверным итоговым результатам.

Ключевые факты

Бенчмарк CCB оценивает деградацию логики моделей при увеличении количества последовательных шагов (N) в диапазоне от 5 до 50.
Исследование сфокусировано на трех типах задач: пространственное отслеживание, символьное манипулирование указателями и транзитивные отношения.
Методология бенчмарка позволяет отделить семантическую сложность задачи от сложности процесса рассуждения.
Основная цель CCB — выявление критических порогов глубины, после которых вероятность ошибки модели возрастает экспоненциально.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Оценка и бенчмарки Kebab Benchmark: новый подход к оценке логических способностей LLM Kebab Benchmark — это новый метод тестирования больших языковых моделей, сфокусированный на проверке их способности к последовательному рассуждению и выполнению многошаговых инструкций. В отличие от стандартных тестов, этот бенчмарк моделирует сложные сценарии, требующие от ИИ удержания контекста и соблюдения строгих логических ограничений при решении прикладных задач. arXiv · Оценка и бенчмарки Исследование гибкости мышления LLM через парадигму «загадок-обманок» Исследователи представили новый метод оценки когнитивных способностей больших языковых моделей под названием «riddle riddle». В отличие от стандартных тестов, этот подход проверяет способность ИИ гибко адаптировать стратегии рассуждения при столкновении с нестандартными задачами. Эксперименты показывают, что модели часто полагаются на заученные паттерны, а не на глубокое понимание логики, что ставит под вопрос их способность к адаптивному мышлению. Hacker News · Исследования и наука Влияние вычислительных ресурсов на оценку производительности LLM Исследователи представили анализ того, как объем вычислительных мощностей, выделяемых на этапе инференса, напрямую влияет на результаты тестирования передовых языковых моделей. В работе рассматривается зависимость между временем обработки запроса, глубиной рассуждений и итоговой точностью ответов в сложных бенчмарках. Авторы подчеркивают, что текущие методы оценки часто не учитывают динамическое масштабирование ресурсов, что приводит к искажению реальных возможностей систем при их развертывании в продакшене. arXiv · Оценка и бенчмарки Расширение бенчмарка LiveCodeBench на несколько языков программирования Исследователи представили Multi-LCB — расширенную версию бенчмарка LiveCodeBench, предназначенную для комплексной оценки навыков генерации кода у больших языковых моделей. Оригинальный проект LiveCodeBench стал стандартом в индустрии благодаря использованию актуальных задач с площадок для спортивного программирования и строгому контролю за утечкой данных, что позволяет объективно проверять способности моделей решать новые, ранее не встречавшиеся задачи. arXiv · Исследования и наука Использование LLM для прогнозирования сложности заданий через когнитивные эпизоды Исследователи представили метод оценки сложности учебных заданий для человека, основанный на анализе цепочек рассуждений больших языковых моделей. Вместо традиционной калибровки по результатам тестирования, подход фокусируется на «когнитивных эпизодах» — ключевых этапах логического вывода модели. Это позволяет не только точнее предсказывать уровень сложности, но и интерпретировать, какие именно мыслительные процессы вызывают затруднения у учащихся. arXiv · Исследования и наука Исследование: как ИИ-модели теряют когнитивные способности в длительных диалогах Новое исследование на arXiv обращает внимание на проблему когнитивного увядания (cognitive atrophy) в поведении больших языковых моделей (LLM). Авторы отмечают, что существующие бенчмарки оценивают знания, безопасность и качество ответов, но не учитывают, как модели ведут себя в длительных, эмоционально насыщенных диалогах. arXiv · Оценка и бенчмарки Исследование чувствительности мультимодальных моделей к порядку данных Исследователи представили инструмент Facet-Probe для аудита мультимодальных LLM, выявляющий критическую проблему: модели часто меняют ответы при простом изменении порядка входных данных. Стандартные бенчмарки игнорируют этот фактор, что ставит под сомнение надежность систем в реальных сценариях, где порядок предоставления информации не должен влиять на итоговый результат или логические выводы нейросети. arXiv · Оценка и бенчмарки COCOLogic-V2: новый бенчмарк для проверки логических рассуждений ИИ Исследователи представили COCOLogic-V2 — специализированный набор данных для оценки способности моделей к визуальному индуктивному мышлению на реальных изображениях. В отличие от существующих тестов, сфокусированных на простых задачах, этот бенчмарк использует сложные логические противоречия и «трудные отрицательные» примеры, позволяя глубже анализировать интерпретируемость моделей, таких как CBM и системы программного синтеза. arXiv · Оценка и бенчмарки TriViewBench: новый бенчмарк для оценки пространственного мышления мультимодальных моделей Исследователи представили TriViewBench — новый бенчмарк для оценки способности мультимодальных моделей (MLLM) к пространственному мышлению. В отличие от стандартных тестов, TriViewBench использует синтетические 3D-сцены с контролируемыми параметрами сложности, такими как количество объектов и степень их перекрытия. Это позволяет точно измерить, как именно архитектура модели справляется с интерпретацией сложных визуальных структур с разных ракурсов. Hacker News · Исследования и наука PCB-Bench: новый бенчмарк для оценки LLM в проектировании печатных плат Исследователи представили PCB-Bench — специализированный набор данных и методологию для оценки способностей больших языковых моделей в задачах автоматизированного проектирования электроники. Бенчмарк фокусируется на двух критических этапах создания печатных плат: размещении компонентов и трассировке соединений, предлагая стандартизированный подход для тестирования ИИ-агентов в инженерных дисциплинах, требующих высокой точности и соблюдения строгих геометрических ограничений.

← Все материалы