Исследователи представили SWE-Interact — новый бенчмарк для оценки ИИ-агентов в условиях интерактивной разработки. В отличие от классических тестов, где агент получает готовое задание, здесь модель взаимодействует с симулятором пользователя. Это позволяет проверить способность агента уточнять расплывчатые требования, вести многоходовой диалог и адаптироваться к изменениям в процессе написания кода, имитируя реальный рабочий цикл программиста.
Существующие подходы, такие как SWE-bench, фокусируются на автономном выполнении задач, где все вводные данные известны заранее. Однако в реальной практике разработчики сталкиваются с неполными описаниями, необходимостью задавать уточняющие вопросы и корректировать курс на основе обратной связи. SWE-Interact переносит фокус с «одиночного рывка» на долгосрочное взаимодействие, что критически важно для оценки пригодности агентов к работе в реальных инженерных командах.
Система использует симулятор, который постепенно раскрывает детали задачи, заставляя агента проявлять проактивность. Такой подход позволяет выявить слабые места в планировании и контекстном управлении моделей, которые часто теряются при выполнении статичных задач. Тестирование показывает, что текущие передовые модели демонстрируют значительные трудности при переходе от автономного решения к итеративному процессу, требующему ведения диалога и управления состоянием сессии.
Ключевые факты
- SWE-Interact оценивает агентов в сценариях с многоходовым взаимодействием и динамически меняющимися требованиями.
- Бенчмарк имитирует реальный рабочий процесс, где агент должен самостоятельно уточнять неясные задачи у симулятора пользователя.
- В отличие от SWE-bench, акцент смещен с разового выполнения на долгосрочные сессии разработки.
- Методология выявляет пробелы в навыках планирования и контекстного взаимодействия у современных LLM при работе над сложными программными проектами.