Исследователи представили метод CoMet (Context and Multiplicity Decomposition), предназначенный для оценки неопределенности в мультимодальных больших языковых моделях (MLLM). Новый подход позволяет моделям лучше распознавать границы своих знаний, разделяя факторы неопределенности на контекстуальные и множественные. Это критически важно для повышения надежности ИИ-систем, работающих с текстовыми и визуальными данными в условиях высокой ответственности.
Проблема оценки неопределенности, или способности модели «понимать, чего она не знает», остается одной из самых сложных задач в области машинного обучения. Традиционные методы часто не справляются с комплексными мультимодальными входными данными, где ошибки могут возникать как из-за неоднозначности визуального ряда, так и из-за неполноты текстового контекста. CoMet предлагает математическую декомпозицию этих источников, что позволяет точнее калибровать уверенность модели в своих ответах.
Применение данного метода помогает снизить количество галлюцинаций и повысить точность ответов в задачах визуального вопросно-ответного взаимодействия (VQA) и анализа изображений. Разработка позволяет системе не просто выдавать результат, но и сопровождать его метрикой доверия, основанной на анализе структуры входных данных. Это приближает развитие систем с элементами метапознания, способных сигнализировать о необходимости вмешательства человека при высокой степени неуверенности.
Ключевые факты
- Метод CoMet разделяет неопределенность на составляющие, связанные с контекстом и множественностью интерпретаций данных.
- Технология направлена на улучшение калибровки уверенности в мультимодальных больших языковых моделях (MLLM).
- Подход позволяет эффективнее выявлять случаи, когда модель не обладает достаточной информацией для корректного ответа.
- Исследование сфокусировано на решении проблемы «знания о незнании», что снижает риск генерации недостоверных данных в критических сценариях.