Hugging Face - Blog · 26.05.2026 ·Инференс и железо

Синхронизация дельта-весов для запуска гигантских моделей

Команда Hugging Face представила новую технологию Delta Weight Sync в TRL (Transformers Reinforcement Learning), которая позволяет эффективно синхронизировать веса моделей с триллионами параметров. Это особенно важно для локального запуска крупных моделей, где традиционные методы требуют значительных вычислительных ресурсов.

Основная идея Delta Weight Sync заключается в передаче только изменённых (дельта) весов вместо полной загрузки модели. Это существенно экономит время и ресурсы, особенно при работе с распределёнными системами. Технология уже интегрирована в Hugging Face Hub, что делает её доступной для разработчиков.

Для разработчиков ИИ-агентов, таких как Jarv, эта технология открывает новые возможности для работы с крупными языковыми моделями. Она позволяет значительно сократить задержки при инференсе и снизить нагрузку на серверы, что особенно важно для агентов, требующих быстрого ответа.

Hugging Face продолжает развивать инструменты для работы с большими моделями, и Delta Weight Sync — важный шаг в этом направлении. Технология уже доступна для использования, и её интеграция в существующие системы может значительно улучшить производительность и эффективность работы с ИИ-агентами.

Источник: Hugging Face - Blog

Обсудить с ИИ

Похожие материалы

Hacker News · Инфраструктура для агентов Deltatensors: новый способ хранения дообученных весов моделей через сжатые дельты Библиотека Deltatensors предлагает оптимизированный подход к хранению и распространению дообученных весов нейросетей. Вместо сохранения полных копий модели, инструмент вычисляет и сжимает разницу (дельты) между базовыми весами и весами после fine-tuning. Это позволяет значительно сократить объем дискового пространства, необходимого для версионирования и обмена специализированными моделями в агентных системах и пайплайнах разработки. Hugging Face - Blog · Инференс и железо DeepInfra интегрируется с Hugging Face для инференса моделей DeepInfra, облачный провайдер для запуска моделей ИИ, теперь доступен в экосистеме Hugging Face. Это интеграция позволяет разработчикам запускать модели из Hugging Face Hub на инфраструктуре DeepInfra с минимальными затратами на настройку. Hugging Face - Blog · Инфраструктура для агентов Интеграция vLLM в библиотеку Transformers для ускорения инференса Hugging Face представила новый бэкенд для библиотеки Transformers, позволяющий использовать движок vLLM непосредственно в привычном интерфейсе. Это решение объединяет простоту использования стандартных инструментов с высокой производительностью vLLM, обеспечивая эффективную работу с длинными контекстами и высокую пропускную способность при выполнении инференса моделей на GPU без необходимости переписывать код под сложные API. Hugging Face - Blog · Инфраструктура для агентов Новый подход к хранению данных в Transformers.js Команда Hugging Face представила эксперимент по внедрению Cross-Origin Storage API в библиотеку Transformers.js. Это решение направлено на преодоление ограничений браузерной изоляции, которые затрудняют работу с большими весами моделей и кэшированием данных в клиентских приложениях. Использование нового API позволяет организовать общее хранилище между различными источниками, что критически важно для эффективной работы локальных ИИ-моделей в веб-среде. Hugging Face - Blog · Память и RAG Обучение мультимодальных моделей эмбеддингов и ранжирования Hugging Face выпустила гайд по обучению и тонкой настройке мультимодальных моделей эмбеддингов и ранжирования на базе Sentence Transformers. Это важно для разработчиков ИИ-агентов, так как мультимодальные эмбеддинги позволяют обрабатывать текстовые и визуальные данные в едином пространстве представлений, что критично для систем RAG (Retrieval-Augmented Generation). Hugging Face - Blog · Инференс и железо Как асинхронность ускоряет обработку запросов в ИИ-агентах Исследователи из Hugging Face представили новый подход к обработке запросов в ИИ-моделях — асинхронный континуальный батчинг. Этот метод позволяет значительно ускорить обработку запросов, особенно в сценариях с высокой нагрузкой, что критически важно для ИИ-агентов, работающих в реальном времени. Hacker News · Данные и инжиниринг Эффективность дедупликации данных в инфраструктуре Hugging Face Hugging Face раскрыла показатели эффективности своей системы хранения данных, продемонстрировав впечатляющий коэффициент дедупликации. Благодаря внедрению продвинутых алгоритмов оптимизации, компания смогла значительно сократить объем занимаемого дискового пространства при работе с огромными массивами весов моделей и наборов данных, что позволяет существенно снизить затраты на инфраструктуру и ускорить процессы передачи данных в распределенных системах. arXiv · Машинное обучение DeltaMerge-LowRes: эффективная адаптация моделей через композицию весовых дельт Исследователи представили метод DeltaMerge-LowRes, позволяющий адаптировать мультиязычные энкодеры к новым языкам и задачам без дорогостоящего совместного дообучения. Вместо объединения параметров в процессе обучения, подход предполагает раздельное вычисление языковых и целевых «дельт» (изменений весов) с последующей их комбинацией в пространстве весов, что критически важно для условий с крайне ограниченным объемом размеченных данных. Together.ai · Инференс и железо Развёртывание моделей Hugging Face за один сеанс Together.ai представила решение для быстрого развёртывания моделей из Hugging Face. Сервис Goose в сочетании с Dedicated Container Inference позволяет запускать модели в производственной среде с GPU без сложной настройки. Hugging Face - Blog · Инфраструктура для агентов Hugging Face представляет CLI для работы с Hub как с агентом Hugging Face анонсировал новую версию своей командной строки (CLI), оптимизированную для работы с Hugging Face Hub как с ИИ-агентом. Это значительный шаг в развитии инфраструктуры для агентов, так как позволяет автоматизировать и упростить взаимодействие с моделями, датасетами и другими ресурсами на платформе.

← Все материалы