Исследователи проанализировали способности современных языковых моделей в интерпретации визуальных данных с помощью бенчмарка Bluffbench. Тестирование показало, что топовые модели достигли уровня насыщения: они успешно распознают закономерности даже на контринтуитивных графиках, где визуальное представление данных противоречит логическим выводам. Это означает, что текущие архитектуры практически полностью освоили базовые навыки визуальной аналитики, заложенные в этот набор тестов.
Результаты указывают на качественный сдвиг в том, как модели обрабатывают мультимодальную информацию. Если раньше ИИ часто совершал ошибки при анализе сложных диаграмм из-за галлюцинаций или неверной интерпретации осей, то сейчас точность ответов в задачах на визуальное мышление приблизилась к человеческим показателям. Модели демонстрируют способность отделять визуальный шум от значимых статистических трендов, что критически важно для автоматизации аналитических отчетов.
Дальнейшее развитие в этой области потребует создания более сложных тестов, так как текущие метрики перестали эффективно дифференцировать возможности передовых систем. Разработчики отмечают, что фокус смещается с простого распознавания графиков на глубокое понимание контекста и причинно-следственных связей, скрытых за визуальными данными. Это открывает путь к созданию более надежных инструментов для автоматизированного анализа данных в бизнесе и научных исследованиях.