Hugging Face - Blog · 08.04.2026 ·Память и RAG

Новые мультимодальные модели для эмбеддингов и ранжирования

Команда Sentence Transformers представила новые мультимодальные модели для создания эмбеддингов и ранжирования. Эти модели способны обрабатывать как текстовые, так и визуальные данные, что делает их полезными для задач, требующих интеграции разных типов информации.

Основные модели включают CLIP, BLIP и FILIP, которые были адаптированы для работы с Sentence Transformers. Это позволяет использовать их в задачах, где необходимо сравнивать или ранжировать мультимодальные данные, например, при поиске изображений по текстовому запросу или наоборот.

Для разработчиков ИИ-агентов эти модели могут быть полезны в задачах, связанных с обработкой и анализом мультимодальных данных. Например, они могут улучшить качество поиска информации, интегрируя текстовые и визуальные данные, или помочь в создании более точных рекомендательных систем.

Кроме того, новые модели поддерживают функцию reranking, что позволяет улучшить качество результатов за счет переоценки и переупорядочивания данных. Это особенно важно для задач, где точность и релевантность информации имеют критическое значение.

Подробнее о новых моделях и их возможностях можно узнать на официальном блоге Hugging Face.

Источник: Hugging Face - Blog

Обсудить с ИИ

Похожие материалы

Hugging Face - Blog · Память и RAG Обучение мультимодальных моделей эмбеддингов и ранжирования Hugging Face выпустила гайд по обучению и тонкой настройке мультимодальных моделей эмбеддингов и ранжирования на базе Sentence Transformers. Это важно для разработчиков ИИ-агентов, так как мультимодальные эмбеддинги позволяют обрабатывать текстовые и визуальные данные в едином пространстве представлений, что критично для систем RAG (Retrieval-Augmented Generation). The Gradient · Инфраструктура для агентов Mamba: новая архитектура для обработки длинных последовательностей Mamba — это новая архитектура нейросетевых моделей, основанная на State Space Models (SSMs). Она позиционируется как серьезная альтернатива Transformer-моделям, которые, несмотря на свою популярность, сталкиваются с проблемами эффективности при обработке длинных последовательностей. Hugging Face - Blog · Память и RAG Granite Embedding Multilingual R2: новые эмбеддинги для RAG IBM представила Granite Embedding Multilingual R2 — набор мультиязычных эмбеддингов с контекстом до 32K токенов. Это открытая модель под лицензией Apache 2.0, которая демонстрирует лучшее качество ретриваля среди моделей с менее чем 100 миллионами параметров. Hugging Face - Blog · Инференс и железо Синхронизация дельта-весов для запуска гигантских моделей Команда Hugging Face представила новую технологию Delta Weight Sync в TRL (Transformers Reinforcement Learning), которая позволяет эффективно синхронизировать веса моделей с триллионами параметров. Это особенно важно для локального запуска крупных моделей, где традиционные методы требуют значительных вычислительных ресурсов. Hacker News · Машинное обучение Next-Latent Prediction Transformers: компактные мировые модели Исследователи представили новый подход к созданию мировых моделей — Next-Latent Prediction Transformers (NLP-T). В отличие от традиционных моделей, NLP-T используют компактные представления, что позволяет значительно снизить вычислительные затраты при сохранении высокой точности. Hugging Face - Blog · Оценка и бенчмарки Новый подход к оценке агентных способностей открытых моделей Hugging Face представила методологию для оценки того, насколько эффективно языковые модели справляются с использованием внешних инструментов. В отличие от стандартных тестов на логику или знание фактов, новый подход фокусируется на способности модели вызывать функции, интерпретировать ответы API и корректировать свои действия в рамках многошаговых задач. Это позволяет разработчикам точнее определять, какая модель лучше подходит для создания автономных агентов. Hugging Face - Blog · Память и RAG PaddleOCR 3.5: интеграция с Transformers для обработки документов Команда PaddlePaddle выпустила обновлённую версию PaddleOCR 3.5, которая теперь поддерживает интеграцию с библиотекой Transformers от Hugging Face. Это позволяет использовать модели OCR (оптическое распознавание символов) в рамках экосистемы Transformers, что упрощает их интеграцию в сложные ИИ-агенты и системы обработки документов. arXiv · Машинное обучение Автоматизация комплаенса в облачной безопасности с помощью Sentence Transformers Исследователи предложили метод автоматизации сопоставления облачных стандартов безопасности с техническими метриками с помощью дообученных моделей Sentence Transformers. Авторы создали специализированный корпус из 3 499 семантических пар, который был расширен до 13 996 образцов с помощью методов обратного перевода и парафразирования через LLM, что позволило значительно повысить точность классификации требований в четырех различных сценариях безопасности. Hacker News · Машинное обучение Новая модель эмбеддингов Fusion-Embedding-1-2B с 16 млн параметров Команда Eximius Labs представила Fusion-Embedding-1-2B — компактную модель для создания векторных представлений текста. Несмотря на крайне малый размер (всего 16 млн обучаемых параметров), модель демонстрирует производительность, сопоставимую с Gemini Embedding 2 от Google. Это достижение подчеркивает эффективность новых методов обучения и оптимизации архитектур для задач семантического поиска и RAG-систем. arXiv · Исследования и наука AIR: новый подход к адаптивному рассуждению в мультимодальных моделях Исследователи представили метод Adaptive Interleaved Reasoning (AIR), направленный на улучшение логических способностей мультимодальных больших языковых моделей (MLLM). В отличие от существующих решений, которые полагаются на жестко заданные эвристики для обработки визуальных данных, новый подход позволяет моделям динамически использовать код для построения цепочек рассуждений. Это дает возможность системе самостоятельно определять, когда и как применять программные инструменты для решения сложных задач, требующих глубокого анализа изображений.

← Все материалы