MarkTechPost · 01.07.2026 ·Инференс и железо

NVIDIA представила Nemotron-Labs-TwoTower: диффузионную модель для ускорения генерации текста

NVIDIA выпустила Nemotron-Labs-TwoTower — диффузионную языковую модель, призванную преодолеть ограничения традиционных авторегрессионных систем. В отличие от последовательной генерации токенов, новая архитектура использует диффузионный подход, что позволяет значительно увеличить пропускную способность при создании текста. Модель базируется на предобученном «хребте» Nemotron-3-Nano-30B-A3B и распространяется с открытыми весами для исследовательских и прикладных целей.

Традиционные авторегрессионные модели (AR) генерируют текст по одному токену за раз, что создает «бутылочное горлышко» в производительности при работе с большими объемами данных. Диффузионные языковые модели меняют этот процесс, позволяя генерировать последовательности параллельно или с иными алгоритмическими преимуществами, что критически важно для высоконагруженных систем инференса.

Использование замороженного «хребта» Nemotron-3-Nano-30B-A3B обеспечивает модели стабильную базу знаний, на которую накладывается диффузионный механизм. Это решение направлено на оптимизацию инфраструктуры генеративного ИИ, где скорость вывода (throughput) является определяющим фактором для масштабируемости сервисов и снижения затрат на вычислительные ресурсы.

Ключевые факты

Модель построена на базе предобученного авторегрессионного ядра Nemotron-3-Nano-30B-A3B.
Архитектура использует диффузионный подход для обхода ограничений последовательной генерации токенов.
Релиз направлен на устранение проблем с пропускной способностью при генерации текста.
Модель доступна под лицензией NVIDIA Nemotron Open Model License с открытыми весами.
Технология ориентирована на оптимизацию инференса в высоконагруженных ИИ-системах.

Источник: MarkTechPost

Обсудить с ИИ

Похожие материалы

← Все материалы