Исследователи обнаружили, что нормы векторов в контрастивных моделях, которые обычно игнорируются при использовании косинусного сходства, содержат важную семантическую информацию. Несмотря на применение масштабно-инвариантных функций потерь, величина эмбеддингов коррелирует с такими характеристиками, как специфичность концептов, частотность токенов и уровень неопределенности, что открывает новые возможности для интерпретации и улучшения векторных представлений в современных ИИ-системах.
Традиционно при обучении контрастивных моделей основное внимание уделяется направлению векторов, а их длина (норма) считается побочным продуктом оптимизации, не влияющим на результат. Однако авторы работы доказали, что динамика обучения «отпечатывает» в этих нормах значимые признаки данных. Это означает, что отказ от анализа величины эмбеддингов приводит к потере части полезных данных, которые могли бы повысить точность поиска или классификации.
Полученные результаты позволяют по-новому взглянуть на архитектуру векторных баз данных и методы RAG. Понимание того, как именно специфичность концептов кодируется в нормах, дает возможность использовать эти скрытые сигналы для более тонкой настройки моделей и улучшения качества ранжирования в информационно-поисковых системах без изменения базовой архитектуры нейросетей.
Ключевые факты
- Контрастивные модели с масштабно-инвариантными потерями обычно опираются только на косинусное сходство, игнорируя длину векторов.
- Норма эмбеддинга напрямую коррелирует с частотностью токенов в обучающей выборке и специфичностью описываемых концептов.
- Величина вектора также отражает степень человеческой неопределенности при оценке семантической близости объектов.
- Использование информации из норм эмбеддингов позволяет извлекать дополнительные метаданные о качестве и контексте данных без переобучения моделей.