Исследователи представили COCOLogic-V2 — специализированный набор данных для оценки способности моделей к визуальному индуктивному мышлению на реальных изображениях. В отличие от существующих тестов, сфокусированных на простых задачах, этот бенчмарк использует сложные логические противоречия и «трудные отрицательные» примеры, позволяя глубже анализировать интерпретируемость моделей, таких как CBM и системы программного синтеза.

Современные методы верификации решений ИИ часто сталкиваются с ограничениями при работе с неструктурированными данными реального мира. COCOLogic-V2 закрывает этот пробел, предлагая структурированную среду, где модели должны не просто классифицировать объекты, а демонстрировать понимание логических связей между ними. Это критически важно для развития систем, требующих высокой степени прозрачности и проверяемости выводов в сложных визуальных сценах.

Использование данного датасета помогает выявить скрытые ошибки в логике нейросетей, которые остаются незамеченными при стандартном тестировании. Разработчики получают инструмент для более точной настройки моделей, ориентированных на интерпретируемость, что является необходимым условием для внедрения ИИ в критически важные области, где требуется обоснование каждого принятого системой решения.

Ключевые факты

  • COCOLogic-V2 ориентирован на визуальное индуктивное мышление с использованием реальных изображений.
  • Основной упор сделан на выявление логических противоречий через механизм «трудных отрицательных» примеров (hard-negatives).
  • Бенчмарк предназначен для оценки интерпретируемых архитектур, включая Concept Bottleneck Models (CBM) и методы программного синтеза.
  • Набор данных расширяет возможности верификации ИИ, выходя за рамки простых задач классификации объектов.