Команда Cursor представила обновленный бенчмарк CursorBench 3.1, предназначенный для оценки эффективности LLM в задачах написания и редактирования кода. Инструмент фокусируется на реальных сценариях разработки, измеряя способность моделей справляться с многофайловыми изменениями и сложными рефакторингами, что позволяет точнее прогнозировать качество работы ИИ-ассистентов в профессиональной среде программирования.

Методология бенчмарка переработана с учетом актуальных возможностей современных моделей, таких как Claude 3.5 Sonnet и GPT-4o. В отличие от классических тестов на решение алгоритмических задач, CursorBench 3.1 имитирует рабочий процесс разработчика, требуя от модели навигации по кодовой базе, понимания контекста проекта и внесения правок, которые проходят проверку тестами в реальном времени.

Разработчики подчеркивают, что текущая версия бенчмарка лучше отражает «агентное» поведение моделей. Это критически важно для оценки инструментов автодополнения и чат-интерфейсов, которые должны не просто генерировать синтаксически верный код, но и интегрировать его в существующую архитектуру приложения без нарушения логики работы системы.

Ключевые факты

  • CursorBench 3.1 оценивает способность моделей выполнять задачи, требующие анализа нескольких файлов одновременно.
  • Тестирование включает проверку правок через автоматизированные юнит-тесты для подтверждения работоспособности кода.
  • Бенчмарк ориентирован на оценку моделей в контексте IDE, имитируя реальные действия разработчика в редакторе.
  • Обновление направлено на устранение разрыва между результатами синтетических тестов и реальной производительностью ИИ при разработке ПО.