arXiv · 29.06.2026 ·Исследования и наука

Нормы эмбеддингов в контрастивных моделях несут скрытую семантическую информацию

Исследователи обнаружили, что нормы векторов в контрастивных моделях, которые обычно игнорируются при использовании косинусного сходства, содержат важную семантическую информацию. Несмотря на применение масштабно-инвариантных функций потерь, величина эмбеддингов коррелирует с такими характеристиками, как специфичность концептов, частотность токенов и уровень неопределенности, что открывает новые возможности для интерпретации и улучшения векторных представлений в современных ИИ-системах.

Традиционно при обучении контрастивных моделей основное внимание уделяется направлению векторов, а их длина (норма) считается побочным продуктом оптимизации, не влияющим на результат. Однако авторы работы доказали, что динамика обучения «отпечатывает» в этих нормах значимые признаки данных. Это означает, что отказ от анализа величины эмбеддингов приводит к потере части полезных данных, которые могли бы повысить точность поиска или классификации.

Полученные результаты позволяют по-новому взглянуть на архитектуру векторных баз данных и методы RAG. Понимание того, как именно специфичность концептов кодируется в нормах, дает возможность использовать эти скрытые сигналы для более тонкой настройки моделей и улучшения качества ранжирования в информационно-поисковых системах без изменения базовой архитектуры нейросетей.

Ключевые факты

Контрастивные модели с масштабно-инвариантными потерями обычно опираются только на косинусное сходство, игнорируя длину векторов.
Норма эмбеддинга напрямую коррелирует с частотностью токенов в обучающей выборке и специфичностью описываемых концептов.
Величина вектора также отражает степень человеческой неопределенности при оценке семантической близости объектов.
Использование информации из норм эмбеддингов позволяет извлекать дополнительные метаданные о качестве и контексте данных без переобучения моделей.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Машинное обучение Эмбеддинги как способ кодирования данных Традиционный подход к работе с эмбеддингами в современных системах часто ограничивается поиском семантической близости, однако их потенциал как универсального механизма кодирования данных значительно шире. В основе концепции лежит представление сложных структур, таких как графы, иерархии или бизнес-объекты, в виде плотных векторных пространств, которые сохраняют не только смысл, но и топологические связи между элементами. Это позволяет перенести логику обработки данных с жестких схем на гибкие математические операции. Hacker News · Машинное обучение Исследование: эмбеддинги как основа современных ИИ-моделей Новое исследование под названием «Embeddings is all you need» предлагает радикальный взгляд на роль эмбеддингов в современных ИИ-моделях. Авторы утверждают, что эмбеддинги могут стать основой для построения более эффективных и универсальных моделей, заменяя традиционные архитектуры. arXiv · Исследования и наука Детекция аномалий в LLM через анализ эмбеддингов SONAR Исследователи представили метод обнаружения ошибок декодирования в мультимодальных моделях, используя чувствительность эмбеддингов к возмущениям. Анализ показал, что определенные размерности в модели SONAR напрямую коррелируют с качеством генерации. Сравнивая результаты последовательного кодирования и декодирования, авторы разработали эффективный механизм выявления аномалий, позволяющий отслеживать сбои в работе нейросетей на уровне векторных представлений предложений. arXiv · Исследования и наука Новая теория объясняет способность нейросетей к обобщению через информационные узкие места Исследователи предложили теоретическую модель, объясняющую, почему перепараметризованные нейронные сети успешно обучаются без катастрофического переобучения. Авторы вводят понятие «информационной фрустрации» в нейронных многообразиях, используя теорию Шеннона для анализа того, как архитектуры с избыточными параметрами эффективно сжимают данные, преодолевая ограничения классических статистических подходов, таких как размерность Вапника-Червоненкиса. arXiv · Машинное обучение Анализ динамики обучения нейросетей через спектральные свойства матрицы Гессе Исследователи представили новый метод анализа процесса обучения нейронных сетей, основанный на изучении динамики собственных векторов матрицы Гессе. Работа раскрывает, как изменение кривизны ландшафта функции потерь коррелирует с выбором оптимизатора и обобщающей способностью модели. Авторы показывают, что отслеживание смещения и локализации этих векторов позволяет глубже понять механизмы оптимизации и стабильность обучения в глубоких архитектурах. arXiv · Исследования и наука Феномен «естественного разгроккинга»: почему модели забывают правила во время обучения Исследователи обнаружили эффект «естественного разгроккинга» (natural ungrokking), при котором языковые модели в процессе обучения сначала усваивают определенные лингвистические правила, а затем внезапно «забывают» их, несмотря на наличие данных в обучающей выборке. Этот процесс асимметричного контроля над тем, какие закономерности сохраняются в весах модели, ставит под сомнение предсказуемость формирования знаний в ходе претренинга. arXiv · Машинное обучение Геометрия собственных чисел в анализе семантических атак на ИИ Исследователи представили новый теоретический подход к изучению уязвимостей моделей классификации, основанный на анализе геометрии собственных чисел. Работа фокусируется на проблеме семантических состязательных атак, при которых незначительные перефразирования текста приводят к изменению предсказаний модели, несмотря на сохранение исходного смысла и близость векторных представлений. arXiv · Машинное обучение Градиентный бустинг с векторными листьями: новый подход к многомерным задачам Исследователи представили метод градиентного бустинга, использующий векторные значения в листьях деревьев решений вместо традиционных скалярных предсказаний. Этот подход позволяет более эффективно оптимизировать сложные целевые функции, работающие с векторами, что значительно расширяет возможности классических ансамблевых моделей в задачах многоклассовой классификации и других многомерных сценариях, требующих одновременной обработки нескольких зависимых переменных. Hacker News · Исследования и наука Почему мы до сих пор не понимаем алгоритмическую природу нейросетей Современные нейронные сети демонстрируют впечатляющие способности к решению задач, однако их внутренняя логика остается «черным ящиком». Исследователи отмечают, что, несмотря на успехи в интерпретируемости моделей, мы все еще не понимаем, как именно нейросети выстраивают алгоритмы обработки данных на фундаментальном уровне. В отличие от классического программирования, где каждый шаг логики прозрачен, нейронные сети обучаются через оптимизацию весов, что приводит к возникновению сложных, нелинейных представлений, которые трудно сопоставить с привычными человеку алгоритмическими конструкциями. arXiv · Машинное обучение Новое исследование законов масштабирования в квадратичных нейронных сетях Исследователи представили работу, анализирующую зависимость обобщающей способности нейронных сетей от количества обучаемых параметров и объема данных. В отличие от предыдущих моделей, фокусирующихся на фиксированных признаках или бесконечной ширине, авторы изучили динамику обучения в квадратичных сетях. Результаты уточняют, как именно архитектурная ширина и структура данных совместно влияют на итоговую производительность моделей при масштабировании.

← Все материалы