NVIDIA выпустила Nemotron-Labs-TwoTower — диффузионную языковую модель, призванную преодолеть ограничения традиционных авторегрессионных систем. В отличие от последовательной генерации токенов, новая архитектура использует диффузионный подход, что позволяет значительно увеличить пропускную способность при создании текста. Модель базируется на предобученном «хребте» Nemotron-3-Nano-30B-A3B и распространяется с открытыми весами для исследовательских и прикладных целей.
Традиционные авторегрессионные модели (AR) генерируют текст по одному токену за раз, что создает «бутылочное горлышко» в производительности при работе с большими объемами данных. Диффузионные языковые модели меняют этот процесс, позволяя генерировать последовательности параллельно или с иными алгоритмическими преимуществами, что критически важно для высоконагруженных систем инференса.
Использование замороженного «хребта» Nemotron-3-Nano-30B-A3B обеспечивает модели стабильную базу знаний, на которую накладывается диффузионный механизм. Это решение направлено на оптимизацию инфраструктуры генеративного ИИ, где скорость вывода (throughput) является определяющим фактором для масштабируемости сервисов и снижения затрат на вычислительные ресурсы.
Ключевые факты
- Модель построена на базе предобученного авторегрессионного ядра Nemotron-3-Nano-30B-A3B.
- Архитектура использует диффузионный подход для обхода ограничений последовательной генерации токенов.
- Релиз направлен на устранение проблем с пропускной способностью при генерации текста.
- Модель доступна под лицензией NVIDIA Nemotron Open Model License с открытыми весами.
- Технология ориентирована на оптимизацию инференса в высоконагруженных ИИ-системах.
