Дэн Лу опубликовал глубокий разбор применимости современных LLM в реальной разработке ПО. Автор критикует текущие бенчмарки за оторванность от реальных рабочих процессов, указывая, что высокие показатели в тестах не гарантируют продуктивности инженера. Исследование подчеркивает необходимость перехода от простых задач к оценке агентных систем, способных поддерживать контекст и исправлять ошибки в сложных кодовых базах.

Основная проблема текущих методов оценки заключается в их статичности. Большинство бенчмарков проверяют способность модели решить изолированную задачу, тогда как работа программиста состоит из навигации по репозиториям, отладки и взаимодействия с существующими архитектурными ограничениями. Автор отмечает, что даже при высокой точности генерации кода, модели часто проваливаются при необходимости интеграции изменений в существующий проект из-за потери контекста или неверной интерпретации зависимостей.

Для объективной оценки агентных систем предлагается внедрение «агентных тестов», которые имитируют полный цикл разработки. Это включает не только написание кода, но и запуск тестов, анализ логов ошибок и итеративное улучшение решения. Такой подход позволяет выявить реальные узкие места в архитектуре моделей, такие как ограниченное окно контекста или неэффективные стратегии планирования действий, которые остаются незамеченными в стандартных наборах данных типа HumanEval.

Ключевые факты

  • Существующие бенчмарки для кодинга (например, HumanEval) не коррелируют с реальной производительностью разработчиков при решении комплексных задач.
  • Основным препятствием для ИИ-агентов является не генерация синтаксически верного кода, а управление контекстом проекта и навигация по сложным зависимостям.
  • Эффективная оценка требует перехода к «агентным процессам», где модель должна самостоятельно выполнять отладку и проверку работоспособности кода в реальной среде.
  • Итеративный цикл «написание — запуск — анализ ошибки» является критическим фактором, который практически не учитывается в классических метриках точности моделей.