NVIDIA представила поддержку многоустройственного инференса в TensorRT, позволяющую распределять выполнение крупных моделей между несколькими графическими процессорами. Это решение снимает ограничения по объему видеопамяти и вычислительной мощности, характерные для работы на одном GPU, что критически важно для высокопроизводительных конвейеров генеративного ИИ, работающих с тяжелыми медиаданными и сложными архитектурами.

Технология позволяет разработчикам эффективно масштабировать инференс, разделяя веса модели между доступными GPU. Это снижает задержки при обработке запросов и позволяет запускать модели, которые ранее не помещались в память одного устройства. Интеграция реализована через обновленный инструментарий TensorRT, который автоматизирует распределение нагрузки и оптимизирует взаимодействие между картами.

Данный подход упрощает развертывание LLM и диффузионных моделей в продакшн-средах, где требуется высокая пропускная способность. Использование многоустройственного инференса минимизирует необходимость в дорогостоящем специализированном железе с экстремально большим объемом VRAM, позволяя гибко настраивать инфраструктуру под конкретные задачи генерации контента.

Ключевые факты

  • Поддержка многоустройственного инференса в TensorRT позволяет распределять вычисления между несколькими GPU для преодоления лимитов памяти.
  • Решение ориентировано на оптимизацию конвейеров генеративного ИИ, включая работу с медиаданными и крупными языковыми моделями.
  • Технология автоматизирует процесс разделения весов модели, что сокращает время на настройку распределенных систем.
  • Использование нескольких GPU позволяет запускать модели, превышающие объем памяти одного графического ускорителя, без потери производительности.