Опубликована актуальная версия бенчмарка DeepSWE, предназначенного для оценки способности больших языковых моделей решать задачи по написанию и отладке программного кода в реальных проектах. В обновлении представлена интеграция модели GLM 5.2, а также пересмотрены показатели производительности для ряда других популярных нейросетевых архитектур. Инструмент сфокусирован на проверке того, насколько эффективно ИИ справляется с комплексными задачами, требующими понимания структуры репозитория и внесения правок в существующий код.
Методология DeepSWE отличается от стандартных тестов тем, что оценивает не просто генерацию отдельных функций, а способность модели выполнять полноценные задачи по разработке, включая навигацию по файловой системе и интеграцию изменений в проект. Обновленные результаты позволяют сравнить текущие возможности моделей в контексте автоматизации рутинных задач программирования. Это дает возможность отследить прогресс в области написания кода и выявить модели, демонстрирующие наиболее стабильные результаты при работе с реальными кодовыми базами.
Данные бенчмарка помогают разработчикам и исследователям лучше понимать ограничения современных систем в задачах автоматизированного программирования. Актуализация метрик обеспечивает более точное представление о том, как изменения в архитектурах моделей влияют на их прикладную эффективность в инженерных процессах. Результаты тестирования доступны для анализа и сравнения в открытом доступе, что способствует прозрачности в оценке прогресса инструментов для автоматизации разработки.