NVIDIA выпустила Nemotron-Labs-TwoTower — диффузионную языковую модель, призванную преодолеть ограничения традиционных авторегрессионных систем. В отличие от последовательной генерации токенов, новая архитектура использует диффузионный подход, что позволяет значительно увеличить пропускную способность при создании текста. Модель базируется на предобученном «хребте» Nemotron-3-Nano-30B-A3B и распространяется с открытыми весами для исследовательских и прикладных целей.

Традиционные авторегрессионные модели (AR) генерируют текст по одному токену за раз, что создает «бутылочное горлышко» в производительности при работе с большими объемами данных. Диффузионные языковые модели меняют этот процесс, позволяя генерировать последовательности параллельно или с иными алгоритмическими преимуществами, что критически важно для высоконагруженных систем инференса.

Использование замороженного «хребта» Nemotron-3-Nano-30B-A3B обеспечивает модели стабильную базу знаний, на которую накладывается диффузионный механизм. Это решение направлено на оптимизацию инфраструктуры генеративного ИИ, где скорость вывода (throughput) является определяющим фактором для масштабируемости сервисов и снижения затрат на вычислительные ресурсы.

Ключевые факты

  • Модель построена на базе предобученного авторегрессионного ядра Nemotron-3-Nano-30B-A3B.
  • Архитектура использует диффузионный подход для обхода ограничений последовательной генерации токенов.
  • Релиз направлен на устранение проблем с пропускной способностью при генерации текста.
  • Модель доступна под лицензией NVIDIA Nemotron Open Model License с открытыми весами.
  • Технология ориентирована на оптимизацию инференса в высоконагруженных ИИ-системах.