Компания Graphsignal представила профилировщик для CUDA, предназначенный для мониторинга производительности моделей в реальных условиях эксплуатации. Инструмент позволяет отслеживать работу графических процессоров при выполнении инференса, выявляя «узкие места» в вычислениях и неэффективное использование ресурсов GPU. Это решение ориентировано на системы, где критически важна минимальная задержка и высокая пропускная способность при работе с большими языковыми моделями.
Профилировщик собирает детальные метрики по операциям на уровне ядер CUDA, что помогает разработчикам понимать, как именно модель взаимодействует с аппаратным обеспечением. В отличие от стандартных инструментов отладки, данное решение адаптировано для непрерывного сбора данных в продакшн-средах без существенного влияния на общую производительность системы. Это позволяет оперативно диагностировать деградацию скорости работы при изменении нагрузки или обновлении версий моделей.
Система предоставляет визуализацию временных затрат на выполнение отдельных операций, что упрощает оптимизацию пайплайнов инференса. Полученные данные помогают принимать решения о масштабировании инфраструктуры и настройке параметров выполнения моделей для достижения оптимального соотношения стоимости и скорости обработки запросов.