Исследователи представили инструмент Facet-Probe для аудита мультимодальных LLM, выявляющий критическую проблему: модели часто меняют ответы при простом изменении порядка входных данных. Стандартные бенчмарки игнорируют этот фактор, что ставит под сомнение надежность систем в реальных сценариях, где порядок предоставления информации не должен влиять на итоговый результат или логические выводы нейросети.

Авторы провели комплексный анализ 18 передовых моделей, используя пять различных векторов проверки: порядок вариантов ответа, последовательность фрагментов текста, ранжирование документов, набор изображений и смешанные модальности. Результаты показывают, что даже топовые архитектуры демонстрируют высокую чувствительность к перестановкам, что указывает на отсутствие устойчивости к «шумовым» изменениям входного потока.

Данная работа подчеркивает необходимость пересмотра подходов к оценке ИИ-систем. Текущие методы тестирования, опирающиеся на канонический порядок данных, не способны выявить скрытые искажения в логике моделей. Внедрение подобных аудиторских процедур становится обязательным требованием для обеспечения предсказуемости поведения моделей в критически важных задачах, где точность интерпретации данных имеет первостепенное значение.

Ключевые факты

  • Инструмент Facet-Probe оценивает надежность моделей по пяти параметрам: варианты ответов, фрагменты текста, ранжирование документов, наборы изображений и смешанные модальности.
  • В исследовании протестировано 18 передовых мультимодальных моделей (MLLM).
  • Выявлено, что изменение порядка входных данных приводит к изменению ответов, что противоречит принципам базовой надежности систем.
  • Стандартные бенчмарки признаны неполными, так как они тестируют модели только на одном фиксированном порядке данных.