Проект «Is grep enough?» представляет собой открытый бенчмарк для оценки способности ИИ-агентов ориентироваться в сложных репозиториях. Исследование сравнивает эффективность простых инструментов поиска, таких как grep, с продвинутыми агентными методами навигации. Цель проекта — определить, насколько современные LLM способны самостоятельно находить нужные фрагменты кода для решения задач, не полагаясь на избыточные контекстные данные.
В основе бенчмарка лежит набор задач, имитирующих реальные сценарии разработки, где агенту необходимо найти определение функции, класс или логическую связь между разрозненными файлами. Авторы подчеркивают, что многие современные системы склонны к «галлюцинациям» при поиске по коду из-за неправильного индексирования или неэффективного использования контекстного окна. Бенчмарк позволяет количественно измерить точность извлечения информации и скорость работы агента в зависимости от используемого метода поиска.
Результаты тестирования показывают, что даже продвинутые модели часто проигрывают классическим методам поиска при работе с большими проектами, если агент не обладает специализированными инструментами для индексации кода. Проект предлагает стандартизированный подход к оценке, который помогает разработчикам выбирать оптимальные стратегии RAG (Retrieval-Augmented Generation) для агентных систем, работающих с исходным кодом.
Ключевые факты
- Бенчмарк оценивает способность агентов находить конкретные участки кода в репозиториях разного объема.
- В качестве базовой метрики используется сравнение эффективности стандартного поиска (grep) и агентных методов навигации.
- Проект направлен на выявление узких мест в RAG-системах, работающих с кодовой базой.
- Методология бенчмарка является прозрачной и доступна для воспроизведения на различных LLM-архитектурах.