Исследователи обнаружили, что нормы векторов в контрастивных моделях, которые обычно игнорируются при использовании косинусного сходства, содержат важную семантическую информацию. Несмотря на применение масштабно-инвариантных функций потерь, величина эмбеддингов коррелирует с такими характеристиками, как специфичность концептов, частотность токенов и уровень неопределенности, что открывает новые возможности для интерпретации и улучшения векторных представлений в современных ИИ-системах.

Традиционно при обучении контрастивных моделей основное внимание уделяется направлению векторов, а их длина (норма) считается побочным продуктом оптимизации, не влияющим на результат. Однако авторы работы доказали, что динамика обучения «отпечатывает» в этих нормах значимые признаки данных. Это означает, что отказ от анализа величины эмбеддингов приводит к потере части полезных данных, которые могли бы повысить точность поиска или классификации.

Полученные результаты позволяют по-новому взглянуть на архитектуру векторных баз данных и методы RAG. Понимание того, как именно специфичность концептов кодируется в нормах, дает возможность использовать эти скрытые сигналы для более тонкой настройки моделей и улучшения качества ранжирования в информационно-поисковых системах без изменения базовой архитектуры нейросетей.

Ключевые факты

  • Контрастивные модели с масштабно-инвариантными потерями обычно опираются только на косинусное сходство, игнорируя длину векторов.
  • Норма эмбеддинга напрямую коррелирует с частотностью токенов в обучающей выборке и специфичностью описываемых концептов.
  • Величина вектора также отражает степень человеческой неопределенности при оценке семантической близости объектов.
  • Использование информации из норм эмбеддингов позволяет извлекать дополнительные метаданные о качестве и контексте данных без переобучения моделей.