NVIDIA представила метод оптимизации больших языковых моделей с использованием формата NVFP4, реализованный через NVIDIA Model Optimizer. Этот подход позволяет значительно сократить объем весов модели Nemotron-3 8B, сохраняя при этом высокую точность инференса. Технология направлена на повышение эффективности работы моделей с длинным контекстом, где передача весов становится критическим узким местом для производительности системы.

Использование квантования в формате NVFP4 (NVIDIA Floating Point 4) позволяет сжимать параметры модели до 4 бит, что существенно снижает требования к пропускной способности памяти при выполнении инференса на графических процессорах архитектуры Blackwell. Модель Nemotron-3 8B, оптимизированная таким образом, демонстрирует минимальные потери в качестве генерации по сравнению с исходными весами в формате FP8 или FP16.

Процесс оптимизации включает использование библиотеки Model Optimizer, которая автоматизирует калибровку и преобразование весов. Это решение позволяет разработчикам развертывать более тяжелые модели на ограниченных аппаратных ресурсах, не жертвуя скоростью обработки запросов. Метод особенно актуален для сценариев, требующих работы с большими объемами данных в оперативной памяти GPU в режиме реального времени.

Ключевые факты

  • Формат NVFP4 обеспечивает 4-битное квантование весов, оптимизированное для архитектуры NVIDIA Blackwell.
  • Модель Nemotron-3 8B выбрана в качестве базовой для демонстрации эффективности сжатия.
  • NVIDIA Model Optimizer автоматизирует процесс подготовки чекпоинтов, включая этапы калибровки и квантования.
  • Использование 4-битных весов позволяет снизить требования к пропускной способности памяти, что критично для моделей с длинным контекстом.
  • Решение направлено на повышение производительности инференса без существенного снижения точности (perplexity) модели.