Исследователи представили ParallelKernelBench — специализированный набор тестов для оценки способности больших языковых моделей писать эффективный код для параллельных вычислений на GPU. В рамках эксперимента модели должны были сгенерировать CUDA-ядра для 87 реальных рабочих нагрузок, требующих оптимизации для работы на нескольких графических процессорах одновременно.

Результаты показали, что даже передовые модели пока справляются с задачей лишь частично: лучшие из них успешно решают менее трети предложенных кейсов. Основная сложность заключается в необходимости глубокого понимания архитектуры памяти GPU, управления потоками и минимизации накладных расходов при межпроцессорном взаимодействии, что остается «узким местом» для современных LLM.

Тем не менее, бенчмарк выявил любопытную закономерность: в ряде случаев модели смогли сгенерировать код, который по производительности превосходит существующие публичные реализации. Это подтверждает потенциал нейросетей в автоматизации низкоуровневой оптимизации, несмотря на текущие ограничения в стабильности и качестве генерации сложных вычислительных ядер.