Исследователи представили Reap — фреймворк для автоматизированного формирования наборов данных, предназначенных для оценки возможностей ИИ-агентов в написании кода. Система решает проблему устаревания статических бенчмарков, динамически извлекая актуальные задачи из репозиториев с открытым исходным кодом. Это позволяет более точно измерять способность моделей решать реальные инженерные задачи, а не просто заучивать ответы из обучающей выборки.
Традиционные бенчмарки часто страдают от «загрязнения» данных, когда тестовые задачи попадают в обучающие сеты моделей. Reap минимизирует этот риск за счет постоянного обновления контента и фильтрации задач, которые требуют глубокого понимания контекста проекта, а не простого написания изолированных функций. Инструмент фокусируется на сложности интеграции кода в существующие кодовые базы, что является критическим навыком для современных агентных систем.
Методология Reap включает в себя этапы парсинга изменений в репозиториях, автоматическую генерацию тестовых сценариев и верификацию решений через запуск тестов в изолированной среде. Такой подход обеспечивает объективность оценки, так как задачи максимально приближены к повседневной работе разработчиков, включая исправление багов, рефакторинг и добавление новых фич в сложные программные продукты.
Ключевые факты
- Reap автоматически извлекает задачи из актуальных коммитов в популярных репозиториях, обеспечивая свежесть тестовых данных.
- Система использует многоуровневую фильтрацию для исключения тривиальных задач и обеспечения высокого качества оценочных кейсов.
- Фреймворк поддерживает автоматическую верификацию кода через выполнение тестов, что исключает субъективность при оценке результатов работы агентов.
- Метод направлен на борьбу с проблемой «загрязнения» бенчмарков, когда модели показывают завышенные результаты из-за наличия тестовых примеров в их обучающей выборке.