arXiv · 29.06.2026 ·Исследования и наука

Детекция аномалий в LLM через анализ эмбеддингов SONAR

Исследователи представили метод обнаружения ошибок декодирования в мультимодальных моделях, используя чувствительность эмбеддингов к возмущениям. Анализ показал, что определенные размерности в модели SONAR напрямую коррелируют с качеством генерации. Сравнивая результаты последовательного кодирования и декодирования, авторы разработали эффективный механизм выявления аномалий, позволяющий отслеживать сбои в работе нейросетей на уровне векторных представлений предложений.

Работа фокусируется на несеквентальных эмбеддингах, которые традиционно считались менее пригодными для мониторинга динамики генерации. Однако авторы доказали, что даже в таких архитектурах существуют специфические признаки, сигнализирующие о потере контекста или галлюцинациях. Этот подход открывает новые возможности для контроля качества вывода моделей без необходимости привлечения дополнительных внешних классификаторов или дорогостоящих вычислительных мощностей.

Предложенный метод базируется на принципе консистентности: если модель «понимает» входные данные, процесс обратного декодирования должен возвращать предсказуемые значения. Любое отклонение в конкретных размерностях эмбеддинга интерпретируется как аномалия. Это позволяет внедрять системы мониторинга непосредственно в пайплайны обработки данных, повышая надежность работы с мультимодальными моделями в реальных задачах.

Ключевые факты

Исследование базируется на анализе архитектуры SONAR, предназначенной для мультимодальных эмбеддингов предложений.
Метод использует чувствительность отдельных размерностей вектора к входным возмущениям для идентификации ошибок.
Детектор аномалий строится на проверке консистентности между этапами кодирования и декодирования данных.
Предложенный подход позволяет выявлять сбои в генерации без использования дополнительных обучаемых моделей-классификаторов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы