Hacker News · 01.07.2026 ·Оценка и бенчмарки

Reap: автоматизированный подход к созданию бенчмарков для кодинг-агентов

Исследователи представили Reap — фреймворк для автоматизированного формирования наборов данных, предназначенных для оценки возможностей ИИ-агентов в написании кода. Система решает проблему устаревания статических бенчмарков, динамически извлекая актуальные задачи из репозиториев с открытым исходным кодом. Это позволяет более точно измерять способность моделей решать реальные инженерные задачи, а не просто заучивать ответы из обучающей выборки.

Традиционные бенчмарки часто страдают от «загрязнения» данных, когда тестовые задачи попадают в обучающие сеты моделей. Reap минимизирует этот риск за счет постоянного обновления контента и фильтрации задач, которые требуют глубокого понимания контекста проекта, а не простого написания изолированных функций. Инструмент фокусируется на сложности интеграции кода в существующие кодовые базы, что является критическим навыком для современных агентных систем.

Методология Reap включает в себя этапы парсинга изменений в репозиториях, автоматическую генерацию тестовых сценариев и верификацию решений через запуск тестов в изолированной среде. Такой подход обеспечивает объективность оценки, так как задачи максимально приближены к повседневной работе разработчиков, включая исправление багов, рефакторинг и добавление новых фич в сложные программные продукты.

Ключевые факты

Reap автоматически извлекает задачи из актуальных коммитов в популярных репозиториях, обеспечивая свежесть тестовых данных.
Система использует многоуровневую фильтрацию для исключения тривиальных задач и обеспечения высокого качества оценочных кейсов.
Фреймворк поддерживает автоматическую верификацию кода через выполнение тестов, что исключает субъективность при оценке результатов работы агентов.
Метод направлен на борьбу с проблемой «загрязнения» бенчмарков, когда модели показывают завышенные результаты из-за наличия тестовых примеров в их обучающей выборке.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Оценка и бенчмарки Бенчмарк для оценки эффективности ИИ-агентов при навигации по кодовой базе Проект «Is grep enough?» представляет собой открытый бенчмарк для оценки способности ИИ-агентов ориентироваться в сложных репозиториях. Исследование сравнивает эффективность простых инструментов поиска, таких как grep, с продвинутыми агентными методами навигации. Цель проекта — определить, насколько современные LLM способны самостоятельно находить нужные фрагменты кода для решения задач, не полагаясь на избыточные контекстные данные. arXiv · Оценка и бенчмарки RevengeBench: восстановление исходного кода ИИ-агентов по их поведению Исследователи представили RevengeBench — новый бенчмарк для оценки способности моделей восстанавливать логику принятия решений агентов. Задача заключается в обратном проектировании исполняемого кода на основе наблюдений за поведением агента в игровых средах. Это позволяет анализировать скрытые механизмы работы систем, когда доступ к их внутренним весам или архитектуре ограничен, превращая поведенческие следы в интерпретируемый программный код. Hacker News · Оценка и бенчмарки Cognition представила Frontier Code — бенчмарк для оценки навыков программирования у ИИ Компания Cognition, разработчик ИИ-инженера Devin, выпустила Frontier Code — новый бенчмарк для оценки способностей моделей в написании программного кода. В отличие от классических тестов, он фокусируется на решении комплексных инженерных задач в реальных репозиториях, требующих навигации по файлам, отладки и работы с зависимостями, что лучше отражает реальную продуктивность ИИ-агентов при разработке ПО. Hugging Face - Blog · Оценка и бенчмарки Новый подход к оценке агентных способностей открытых моделей Hugging Face представила методологию для оценки того, насколько эффективно языковые модели справляются с использованием внешних инструментов. В отличие от стандартных тестов на логику или знание фактов, новый подход фокусируется на способности модели вызывать функции, интерпретировать ответы API и корректировать свои действия в рамках многошаговых задач. Это позволяет разработчикам точнее определять, какая модель лучше подходит для создания автономных агентов. Hacker News · Оценка и бенчмарки Бенчмарк для анализа ошибок памяти ИИ-агентов Исследователи представили специализированный бенчмарк для тестирования механизмов памяти в ИИ-агентах. Инструмент позволяет систематически оценивать, как системы хранения данных справляются с критическими сбоями при извлечении контекста, долгосрочном удержании информации и разрешении конфликтов в памяти. Это помогает разработчикам выявлять слабые места в архитектурах RAG и агентных системах, влияющие на точность принятия решений. arXiv · Память и RAG Байесовская оценка неопределенности для агентских RAG-систем Исследователи представили фреймворк для агентских RAG-систем, позволяющий оценивать вероятность ошибок в многошаговых цепочках рассуждений. Система использует байесовское распространение неопределенности на этапах планирования, оценки и генерации, опираясь на семантическую дивергенцию и механизмы саморефлексии моделей. Это решение повышает надежность автономных агентов при выполнении сложных задач, требующих многократного обращения к внешним источникам данных. Hacker News · Оркестрация агентов Simple-Agent: новый подход к автоматизации разработки ПО Исследователи представили Simple-Agent — фреймворк для создания автономных ИИ-агентов, ориентированный на решение задач по написанию и отладке программного кода. В основе проекта лежит принцип минимизации сложности архитектуры: вместо многоуровневых систем оркестрации разработчики сделали ставку на прямое взаимодействие модели с инструментами разработки. Такой подход позволил достичь высоких показателей производительности на популярных бенчмарках, включая SWE-bench Pro и Verified. Hacker News · ИИ в бизнесе Автоматизация процесса проверки кода с помощью ИИ-агентов Использование агентных систем для проведения code review позволяет значительно ускорить цикл разработки, перекладывая рутинные задачи по проверке качества и безопасности на ИИ. Современные подходы позволяют агентам не просто искать синтаксические ошибки, но и анализировать архитектурные решения, предлагать оптимизации и проверять соответствие кода внутренним стандартам компании, снижая нагрузку на ведущих инженеров. Hacker News · Исследования и наука MirrorCode: исследование возможностей ИИ в автономной разработке ПО Исследовательская организация Epoch AI представила MirrorCode — бенчмарк для оценки способности ИИ-моделей самостоятельно реализовывать крупные программные проекты. В отличие от стандартных тестов на написание отдельных функций, MirrorCode проверяет работу с многофайловыми репозиториями, требующими понимания архитектуры, управления зависимостями и интеграции кода в реальных условиях разработки без участия человека. Hacker News · Оценка и бенчмарки Senior SWE-bench: новый стандарт оценки ИИ-агентов на уровне Senior-разработчиков Представлен Senior SWE-bench — открытый бенчмарк для оценки способностей ИИ-агентов решать сложные инженерные задачи, требующие уровня квалификации Senior-разработчика. В отличие от базовых тестов, этот инструмент фокусируется на многоэтапном проектировании, глубоком анализе кодовой базы и исправлении архитектурных ошибок, имитируя реальный рабочий процесс в крупных репозиториях с открытым исходным кодом.

← Все материалы