Исследователи представили SHERLOC — фреймворк для структурированной диагностики ошибок в коде, предназначенный для повышения эффективности ИИ-агентов. В отличие от стандартных методов поиска файлов, SHERLOC использует гипотетико-дедуктивный подход для выявления конкретных дефектов. Это позволяет агентам тратить меньше ресурсов на диагностику и получать контекст, необходимый для автоматического исправления ошибок на уровне репозитория.

Современные LLM-агенты при решении задач разработки тратят до 50% своего вычислительного бюджета на поиск неисправностей. Существующие инструменты часто ограничиваются простым поиском файлов, что не дает агенту понимания причин возникновения ошибки. SHERLOC меняет этот процесс, превращая локализацию из задачи поиска в задачу формирования диагностической гипотезы.

Система работает через итеративный процесс, в котором агент выдвигает и проверяет гипотезы о причинах сбоя. Такой подход обеспечивает более глубокую интеграцию между этапом обнаружения проблемы и этапом написания исправлений, что критически важно для сложных проектов с множеством зависимостей.

Ключевые факты

  • SHERLOC использует гипотетико-дедуктивный метод для локализации дефектов вместо классического поиска по файлам.
  • Фреймворк сокращает избыточные затраты вычислительного бюджета агентов, которые ранее уходили на неэффективный поиск ошибок.
  • Система предоставляет агентам диагностический контекст, необходимый для автоматизированного исправления кода на уровне всего репозитория.
  • Разработка направлена на решение проблемы нехватки специализированных диагностических инструментов в текущих пайплайнах разработки с помощью ИИ.