Компания Cognition, разработчик ИИ-инженера Devin, выпустила Frontier Code — новый бенчмарк для оценки способностей моделей в написании программного кода. В отличие от классических тестов, он фокусируется на решении комплексных инженерных задач в реальных репозиториях, требующих навигации по файлам, отладки и работы с зависимостями, что лучше отражает реальную продуктивность ИИ-агентов при разработке ПО.
Текущие методы оценки часто полагаются на решение изолированных алгоритмических задач, которые не учитывают контекст полноценного проекта. Frontier Code предлагает набор сценариев, где модель должна продемонстрировать умение работать с существующей кодовой базой, понимать архитектурные решения и вносить изменения, не нарушая работоспособность системы. Это позволяет более точно измерять пригодность моделей для автоматизации задач профессиональных разработчиков.
Разработчики подчеркивают, что создание подобных инструментов необходимо для объективного сравнения прогресса в области агентного программирования. По мере усложнения моделей, традиционные метрики перестают быть показательными, так как ИИ учится «запоминать» ответы из обучающих выборок. Новый бенчмарк направлен на проверку способности ИИ к рассуждению и адаптации в динамических условиях разработки.
Ключевые факты
- Frontier Code оценивает ИИ-модели на основе их способности выполнять реальные инженерные задачи в рамках существующих репозиториев.
- Бенчмарк включает проверку навыков навигации по файловой системе, отладки кода и управления зависимостями.
- Инструмент разработан компанией Cognition, известной созданием автономного ИИ-инженера Devin.
- Методология теста направлена на минимизацию влияния заученных ответов, фокусируясь на способности модели к решению комплексных проблем в контексте проекта.