Исследователи представили инструмент Facet-Probe для аудита мультимодальных LLM, выявляющий критическую проблему: модели часто меняют ответы при простом изменении порядка входных данных. Стандартные бенчмарки игнорируют этот фактор, что ставит под сомнение надежность систем в реальных сценариях, где порядок предоставления информации не должен влиять на итоговый результат или логические выводы нейросети.
Авторы провели комплексный анализ 18 передовых моделей, используя пять различных векторов проверки: порядок вариантов ответа, последовательность фрагментов текста, ранжирование документов, набор изображений и смешанные модальности. Результаты показывают, что даже топовые архитектуры демонстрируют высокую чувствительность к перестановкам, что указывает на отсутствие устойчивости к «шумовым» изменениям входного потока.
Данная работа подчеркивает необходимость пересмотра подходов к оценке ИИ-систем. Текущие методы тестирования, опирающиеся на канонический порядок данных, не способны выявить скрытые искажения в логике моделей. Внедрение подобных аудиторских процедур становится обязательным требованием для обеспечения предсказуемости поведения моделей в критически важных задачах, где точность интерпретации данных имеет первостепенное значение.
Ключевые факты
- Инструмент Facet-Probe оценивает надежность моделей по пяти параметрам: варианты ответов, фрагменты текста, ранжирование документов, наборы изображений и смешанные модальности.
- В исследовании протестировано 18 передовых мультимодальных моделей (MLLM).
- Выявлено, что изменение порядка входных данных приводит к изменению ответов, что противоречит принципам базовой надежности систем.
- Стандартные бенчмарки признаны неполными, так как они тестируют модели только на одном фиксированном порядке данных.