Hacker News · 21.06.2026 ·Оценка и бенчмарки

Обновление бенчмарка DeepSWE для оценки навыков ИИ в разработке ПО

Опубликована актуальная версия бенчмарка DeepSWE, предназначенного для оценки способности больших языковых моделей решать задачи по написанию и отладке программного кода в реальных проектах. В обновлении представлена интеграция модели GLM 5.2, а также пересмотрены показатели производительности для ряда других популярных нейросетевых архитектур. Инструмент сфокусирован на проверке того, насколько эффективно ИИ справляется с комплексными задачами, требующими понимания структуры репозитория и внесения правок в существующий код.

Методология DeepSWE отличается от стандартных тестов тем, что оценивает не просто генерацию отдельных функций, а способность модели выполнять полноценные задачи по разработке, включая навигацию по файловой системе и интеграцию изменений в проект. Обновленные результаты позволяют сравнить текущие возможности моделей в контексте автоматизации рутинных задач программирования. Это дает возможность отследить прогресс в области написания кода и выявить модели, демонстрирующие наиболее стабильные результаты при работе с реальными кодовыми базами.

Данные бенчмарка помогают разработчикам и исследователям лучше понимать ограничения современных систем в задачах автоматизированного программирования. Актуализация метрик обеспечивает более точное представление о том, как изменения в архитектурах моделей влияют на их прикладную эффективность в инженерных процессах. Результаты тестирования доступны для анализа и сравнения в открытом доступе, что способствует прозрачности в оценке прогресса инструментов для автоматизации разработки.

Источник: Hacker News

Похожие материалы

Hacker News · Инфраструктура для агентов Обновление DeepSWE v1.1 для автоматизированной разработки ПО Вышла версия 1.1 системы DeepSWE, предназначенной для автоматизации процессов разработки программного обеспечения с помощью ИИ-агентов. Обновление сфокусировано на улучшении способности моделей самостоятельно решать задачи в рамках существующих кодовых баз, включая навигацию по репозиториям, написание тестов и исправление ошибок без участия человека. Hacker News · Оценка и бенчмарки Artificial Analysis представила методику оценки ИИ в интеллектуальной работе Аналитическая платформа Artificial Analysis выпустила инструмент Briefcase, предназначенный для оценки эффективности языковых моделей в решении сложных задач интеллектуального труда. В отличие от стандартных тестов, ориентированных на проверку академических знаний или написание кода, новая методика фокусируется на многоэтапных процессах, требующих анализа документов, синтеза информации и принятия решений в условиях неопределенности. arXiv · Оценка и бенчмарки Расширение бенчмарка LiveCodeBench на несколько языков программирования Исследователи представили Multi-LCB — расширенную версию бенчмарка LiveCodeBench, предназначенную для комплексной оценки навыков генерации кода у больших языковых моделей. Оригинальный проект LiveCodeBench стал стандартом в индустрии благодаря использованию актуальных задач с площадок для спортивного программирования и строгому контролю за утечкой данных, что позволяет объективно проверять способности моделей решать новые, ранее не встречавшиеся задачи. The Decoder · Оценка и бенчмарки Новый бенчмарк показал низкую эффективность ИИ в реальных интеллектуальных задачах Исследователи представили новый бенчмарк, предназначенный для оценки способности нейросетей справляться с комплексной интеллектуальной работой. В отличие от стандартных тестов, проверяющих знание фактов или написание кода, этот инструмент имитирует реальные рабочие процессы, требующие многоэтапного планирования, анализа контекста и принятия решений. Результаты показали, что даже самые передовые языковые модели демонстрируют крайне низкие показатели в таких условиях. Hugging Face - Blog · Оценка и бенчмарки Новый подход к оценке агентных способностей открытых моделей Hugging Face представила методологию для оценки того, насколько эффективно языковые модели справляются с использованием внешних инструментов. В отличие от стандартных тестов на логику или знание фактов, новый подход фокусируется на способности модели вызывать функции, интерпретировать ответы API и корректировать свои действия в рамках многошаговых задач. Это позволяет разработчикам точнее определять, какая модель лучше подходит для создания автономных агентов. arXiv · Оценка и бенчмарки Новый бенчмарк для оценки работы языковых моделей в диагностических диалогах Исследователи представили DiagFlowBench — новый бенчмарк для оценки способности языковых моделей обрабатывать запросы, выходящие за рамки стандартных процедур в диагностических диалогах. Языковые модели всё чаще используются в системах поддержки технического обслуживания, где важно избежать генерации некорректной информации (hallucination). Для этого модели привязывают к официальной документации, чтобы они следовали только утверждённым шагам. Hacker News · Модели и релизы GLM 5.2 показал высокие результаты в бенчмарках Новая версия модели GLM 5.2 продемонстрировала впечатляющие результаты в различных бенчмарках. Согласно последним тестам, модель превзошла своих предшественников по ряду ключевых метрик, включая точность и скорость обработки запросов. arXiv · Модели и релизы Как улучшить точность небольших моделей кода без переобучения Исследователи из DeepSeek и других организаций представили новый подход к повышению точности небольших моделей кода без необходимости их переобучения. В работе рассматриваются так называемые «замороженные» модели кода (с параметрами ≤45 миллионов), которые не поддаются стандартным методам улучшения качества вывода. Hacker News · Оценка и бенчмарки Представлен Terminal-Bench для оценки ИИ-агентов в терминальной среде Разработчики представили Terminal-Bench — новый набор тестов, предназначенный для оценки способностей ИИ-агентов к выполнению сложных задач в среде командной строки. В отличие от стандартных бенчмарков, которые часто фокусируются на коротких запросах, этот инструмент моделирует сценарии с длинным горизонтом планирования. Он требует от модели последовательного выполнения множества операций, управления файловой системой и обработки большого объема промежуточных данных. Hacker News · Оценка и бенчмарки Сравнение производительности моделей MiniMax M3 и GLM 5.2 в задачах программирования Исследователи провели сравнительный анализ двух актуальных языковых моделей, MiniMax M3 и GLM 5.2, сфокусировавшись на их способности к автономной генерации программного кода. В ходе тестирования использовались специализированные наборы задач, имитирующие реальные сценарии разработки, где ИИ должен не просто дополнять фрагменты кода, но и самостоятельно проектировать архитектуру решений, исправлять ошибки и реализовывать функциональность с нуля.

← Все материалы