Команда Together AI представила ParallelKernelBench — специализированный бенчмарк для оценки навыков больших языковых моделей в написании высокопроизводительного кода для параллельных вычислений на GPU. Исследование фокусируется на способности ИИ генерировать оптимизированные CUDA-ядра, что критически важно для ускорения обучения и инференса нейросетей, требующих эффективного распределения нагрузки между несколькими графическими процессорами.

Разработка бенчмарка продиктована растущей потребностью в автоматизации написания низкоуровневого кода для GPU. Традиционно создание таких ядер требует глубоких знаний архитектуры железа и ручной оптимизации памяти. ParallelKernelBench позволяет объективно измерить, насколько современные LLM справляются с задачами параллелизации, учитывая специфические ограничения пропускной способности и задержек при работе с памятью в многопроцессорных системах.

Результаты тестирования показывают, что, несмотря на прогресс в кодинге, модели все еще сталкиваются с трудностями при генерации кода, который по производительности сопоставим с решениями, написанными экспертами вручную. Бенчмарк включает набор задач разной сложности, от простых операций до комплексных алгоритмов, требующих эффективного управления разделяемой памятью и синхронизации потоков.

Ключевые факты

  • ParallelKernelBench содержит набор задач для оценки генерации кода на языке CUDA.
  • Тестирование сфокусировано на производительности многопроцессорных (multi-GPU) конфигураций.
  • Бенчмарк оценивает корректность кода, его компилируемость и итоговую скорость выполнения на реальном железе.
  • Проект направлен на выявление пробелов в способности моделей к низкоуровневой оптимизации вычислений.
  • Инструментарий доступен в открытом доступе для анализа возможностей различных LLM в задачах системного программирования.