Исследователи представили SWE-Interact — новый бенчмарк для оценки ИИ-агентов в условиях интерактивной разработки. В отличие от классических тестов, где агент получает готовое задание, здесь модель взаимодействует с симулятором пользователя. Это позволяет проверить способность агента уточнять расплывчатые требования, вести многоходовой диалог и адаптироваться к изменениям в процессе написания кода, имитируя реальный рабочий цикл программиста.

Существующие подходы, такие как SWE-bench, фокусируются на автономном выполнении задач, где все вводные данные известны заранее. Однако в реальной практике разработчики сталкиваются с неполными описаниями, необходимостью задавать уточняющие вопросы и корректировать курс на основе обратной связи. SWE-Interact переносит фокус с «одиночного рывка» на долгосрочное взаимодействие, что критически важно для оценки пригодности агентов к работе в реальных инженерных командах.

Система использует симулятор, который постепенно раскрывает детали задачи, заставляя агента проявлять проактивность. Такой подход позволяет выявить слабые места в планировании и контекстном управлении моделей, которые часто теряются при выполнении статичных задач. Тестирование показывает, что текущие передовые модели демонстрируют значительные трудности при переходе от автономного решения к итеративному процессу, требующему ведения диалога и управления состоянием сессии.

Ключевые факты

  • SWE-Interact оценивает агентов в сценариях с многоходовым взаимодействием и динамически меняющимися требованиями.
  • Бенчмарк имитирует реальный рабочий процесс, где агент должен самостоятельно уточнять неясные задачи у симулятора пользователя.
  • В отличие от SWE-bench, акцент смещен с разового выполнения на долгосрочные сессии разработки.
  • Методология выявляет пробелы в навыках планирования и контекстного взаимодействия у современных LLM при работе над сложными программными проектами.