Команда Together AI представила ParallelKernelBench — специализированный бенчмарк для оценки навыков больших языковых моделей в написании высокопроизводительного кода для параллельных вычислений на GPU. Исследование фокусируется на способности ИИ генерировать оптимизированные CUDA-ядра, что критически важно для ускорения обучения и инференса нейросетей, требующих эффективного распределения нагрузки между несколькими графическими процессорами.
Разработка бенчмарка продиктована растущей потребностью в автоматизации написания низкоуровневого кода для GPU. Традиционно создание таких ядер требует глубоких знаний архитектуры железа и ручной оптимизации памяти. ParallelKernelBench позволяет объективно измерить, насколько современные LLM справляются с задачами параллелизации, учитывая специфические ограничения пропускной способности и задержек при работе с памятью в многопроцессорных системах.
Результаты тестирования показывают, что, несмотря на прогресс в кодинге, модели все еще сталкиваются с трудностями при генерации кода, который по производительности сопоставим с решениями, написанными экспертами вручную. Бенчмарк включает набор задач разной сложности, от простых операций до комплексных алгоритмов, требующих эффективного управления разделяемой памятью и синхронизации потоков.
Ключевые факты
- ParallelKernelBench содержит набор задач для оценки генерации кода на языке CUDA.
- Тестирование сфокусировано на производительности многопроцессорных (multi-GPU) конфигураций.
- Бенчмарк оценивает корректность кода, его компилируемость и итоговую скорость выполнения на реальном железе.
- Проект направлен на выявление пробелов в способности моделей к низкоуровневой оптимизации вычислений.
- Инструментарий доступен в открытом доступе для анализа возможностей различных LLM в задачах системного программирования.