Исследователи представили SWE-Doctor — фреймворк для повышения эффективности ИИ-агентов при исправлении программного кода. Система использует многогранные тесты воспроизведения ошибок (BRT) для проведения глубокой диагностики на этапе выполнения. Это позволяет агентам не просто генерировать патчи, а опираться на точные данные о причинах сбоев, что значительно повышает качество и надежность предлагаемых программных исправлений.

Традиционные подходы к автоматизации разработки часто ограничиваются генерацией кода на основе текстовых описаний проблем, что приводит к высокому уровню ошибок и неверным патчам. SWE-Doctor меняет парадигму, внедряя этап «диагностики во время исполнения». Агент анализирует логи выполнения тестов и трассировки, чтобы локализовать проблему до того, как приступить к написанию кода. Такой подход имитирует действия инженера-человека, который сначала изучает поведение программы, а затем вносит изменения.

Интеграция системы в агентные рабочие процессы позволяет сократить количество итераций, необходимых для успешного прохождения тестов. Фреймворк предоставляет агенту структурированную информацию о состоянии среды, что снижает вероятность галлюцинаций при работе с большими кодовыми базами. Это решение является важным шагом в развитии автономных систем для поддержки жизненного цикла программного обеспечения.

Ключевые факты

  • SWE-Doctor использует многогранные тесты воспроизведения ошибок (BRT) для анализа причин сбоев в реальном времени.
  • Система фокусируется на этапе диагностики, предшествующем генерации патча, что отличает её от стандартных методов «генерации кода по описанию».
  • Фреймворк значительно улучшает показатели успешного исправления багов в сложных репозиториях за счет предоставления агенту контекста выполнения.
  • Методология направлена на снижение количества невалидных патчей, создаваемых LLM-агентами в процессе автоматизированной отладки.