arXiv · 26.06.2026 ·Оценка и бенчмарки

COCOLogic-V2: новый бенчмарк для проверки логических рассуждений ИИ

Исследователи представили COCOLogic-V2 — специализированный набор данных для оценки способности моделей к визуальному индуктивному мышлению на реальных изображениях. В отличие от существующих тестов, сфокусированных на простых задачах, этот бенчмарк использует сложные логические противоречия и «трудные отрицательные» примеры, позволяя глубже анализировать интерпретируемость моделей, таких как CBM и системы программного синтеза.

Современные методы верификации решений ИИ часто сталкиваются с ограничениями при работе с неструктурированными данными реального мира. COCOLogic-V2 закрывает этот пробел, предлагая структурированную среду, где модели должны не просто классифицировать объекты, а демонстрировать понимание логических связей между ними. Это критически важно для развития систем, требующих высокой степени прозрачности и проверяемости выводов в сложных визуальных сценах.

Использование данного датасета помогает выявить скрытые ошибки в логике нейросетей, которые остаются незамеченными при стандартном тестировании. Разработчики получают инструмент для более точной настройки моделей, ориентированных на интерпретируемость, что является необходимым условием для внедрения ИИ в критически важные области, где требуется обоснование каждого принятого системой решения.

Ключевые факты

COCOLogic-V2 ориентирован на визуальное индуктивное мышление с использованием реальных изображений.
Основной упор сделан на выявление логических противоречий через механизм «трудных отрицательных» примеров (hard-negatives).
Бенчмарк предназначен для оценки интерпретируемых архитектур, включая Concept Bottleneck Models (CBM) и методы программного синтеза.
Набор данных расширяет возможности верификации ИИ, выходя за рамки простых задач классификации объектов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы