Исследователи из MIT и других ведущих университетов предложили новый подход к снижению визуальных галлюцинаций в мультимодальных языковых моделях (MLLMs). Эти системы, способные обрабатывать как текстовые, так и визуальные данные, часто демонстрируют уверенность в своих ответах, даже когда визуальные данные слабые или неоднозначные. Это приводит к так называемым "галлюцинациям" — выводам, не соответствующим реальности.
Авторы работы предлагают использовать Retrieval-Augmented Generation (RAG) в сочетании с механизмом reliability-aware inference. Этот метод позволяет моделям проверять свои выводы на соответствие визуальным данным, снижая вероятность ошибочных утверждений. В частности, система сначала извлекает релевантную информацию из внешних источников, а затем оценивает её достоверность перед генерацией ответа.
Эксперименты показали, что предложенный подход значительно улучшает качество ответов мультимодальных моделей. Например, в задачах, связанных с интерпретацией изображений, точность ответов увеличилась на 20-30% по сравнению с базовыми моделями. Это особенно важно для разработки ИИ-агентов, которые должны работать с визуальными данными, например, в системах поддержки клиентов или анализе медицинских изображений.
Для команды Jarv этот подход может быть полезен при создании агентов, работающих с мультимодальными данными. Внедрение RAG и механизмов проверки достоверности может повысить надёжность и точность ответов, что критически важно для пользователей, полагающихся на ИИ-агентов в сложных задачах.