Together.ai · 18.02.2026 ·Машинное обучение

Новый метод ускоряет диффузионные языковые модели в 14 раз

Новый метод ускоряет диффузионные языковые модели в 14 раз

Исследователи из Together AI представили Consistency Diffusion Language Models (CDLM) — метод, который ускоряет работу диффузионных языковых моделей в 14,5 раза без потери качества.

Проблема стандартных диффузионных моделей в том, что они не могут использовать кэширование ключ-значение (KV caching) и требуют множества шагов уточнения, что делает их неэффективными. CDLM решает обе проблемы: после обучения модель поддерживает точечное блоковое кэширование KV и сокращает количество шагов за счёт согласованности траекторий.

Тестирование показало, что CDLM сохраняет качество генерации текста при значительном снижении задержек. Это делает диффузионные модели более практичными для реального использования, особенно в задачах, требующих быстрого инференса.

Технология может найти применение в чат-ботах, системах генерации контента и других сервисах, где важна скорость обработки запросов.

Источник: Together.ai

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Adaptive Block Diffusion решает проблему несовпадения обучения и инференса в DLM Исследователи представили метод Adaptive Block Diffusion (ABD), направленный на устранение разрыва между обучением и инференсом в диффузионных языковых моделях (DLM). Традиционные модели ограничены фиксированными контекстными структурами, что приводит к деградации качества при работе с произвольными конфигурациями. Новый подход оптимизирует процесс шумоподавления, позволяя моделям эффективно адаптироваться к различным длинам последовательностей и структурам данных вне обучающей сетки. Hacker News · Машинное обучение Диффузионные модели для параллельной генерации текста Исследователи представили новый подход к архитектуре больших языковых моделей, основанный на принципах диффузии. В отличие от стандартных LLM, которые предсказывают следующий токен последовательно, новая методика позволяет генерировать множество токенов одновременно. Это радикально меняет процесс формирования текста, превращая его из пошагового авторегрессионного процесса в параллельный. Google DeepMind News · Машинное обучение DiffusionGemma от DeepMind ускоряет генерацию текста в 4 раза DeepMind представила новую модель DiffusionGemma, которая значительно ускоряет процесс генерации текста. Новая модель работает в 4 раза быстрее по сравнению с предыдущими решениями, что делает её одной из самых быстрых в своей категории. Это достижение может иметь значительное влияние на разработку ИИ-агентов, где скорость генерации текста играет ключевую роль в эффективности работы. arXiv · Инференс и железо Оптимизация инференса через метод Relaxed Speculative Decoding Исследователи представили метод Relaxed Speculative Decoding, который ускоряет генерацию текста LLM за счет отказа от строгого соответствия распределению вероятностей исходной модели. В отличие от классического спекулятивного декодирования, этот подход допускает контролируемые отклонения при проверке токенов, что позволяет значительно повысить скорость инференса без необходимости дополнительного обучения вспомогательных моделей. Hacker News · Исследования и наука Новый метод Dispersion Loss для борьбы с конденсацией эмбеддингов в малых LLM Исследователи предложили метод Dispersion Loss, решающий проблему «конденсации» эмбеддингов в малых языковых моделях. При обучении компактных моделей векторы слов часто схлопываются в узкие кластеры, что снижает качество генерации. Новый подход принудительно разносит эмбеддинги в пространстве, повышая выразительность модели без увеличения количества параметров, что критически важно для эффективного обучения легковесных архитектур. arXiv · Исследования и наука Обзор методов ускорения инференса для диффузионных языковых моделей Исследователи проанализировали методы оптимизации инференса для диффузионных языковых моделей (dLLM), которые теоретически способны генерировать текст параллельно, в отличие от классических авторегрессионных архитектур. Несмотря на потенциал параллелизма, практическое ускорение требует внедрения специализированных механизмов, таких как кэширование и повторное использование промежуточных состояний, что становится критически важным для внедрения данных моделей в реальные рабочие процессы. arXiv · Машинное обучение Multi-Block Diffusion: новый подход к параллельной генерации текста Исследователи представили архитектуру Multi-Block Diffusion (MultiBD), расширяющую возможности диффузионных языковых моделей. В отличие от традиционных подходов, MultiBD позволяет параллельно декодировать последовательные блоки текста, что значительно ускоряет процесс генерации. Метод решает проблему ограничений Single-Block моделей, внедряя эффективную работу с KV-кэшем и обеспечивая гибкость при создании контента переменной длины. arXiv · Исследования и наука Новый подход к формальному доказательству теорем с помощью диффузионных моделей Исследователи представили метод Diffusion-Proof, направленный на преодоление ограничений стандартных авторегрессионных языковых моделей в задачах формальной математики. Традиционные модели, предсказывающие следующий токен, часто сталкиваются с трудностями при построении длинных логических цепочек, необходимых для верификации сложных математических доказательств. Новый подход переносит принципы диффузионных процессов в область формального вывода, позволяя моделям более эффективно исследовать пространство возможных доказательств. arXiv · Машинное обучение Оптимизация инференса LLM через адаптивную глубину декодирования Исследователи представили метод Depth Exploration, оптимизирующий процесс генерации токенов в авторегрессионных моделях. Вместо прогона каждого токена через все слои нейросети, система динамически определяет глубину вычислений, необходимую для уверенного предсказания. Это позволяет существенно сократить вычислительные затраты при сохранении точности, так как многие токены становятся предсказуемыми на промежуточных этапах обработки данных внутри архитектуры модели. Together.ai · Память и RAG ИИ ускоряет выполнение SQL-запросов в 4.78 раза Исследователи из Together AI продемонстрировали, что языковые модели могут значительно ускорить выполнение SQL-запросов. Они использовали LLM для оптимизации планов выполнения запросов, исправляя ошибки в оценке кардинальности, которые упускают статистические методы.

← Все материалы