Исследователи проанализировали внутренние механизмы Anthropic, используемые для управления автономными кодинг-агентами. Основное внимание уделено системе контроля, которая ограничивает действия модели в среде разработки, предотвращая нежелательные изменения и обеспечивая безопасность выполнения кода. Этот подход демонстрирует, как крупные игроки выстраивают «песочницы» для агентных систем, чтобы минимизировать риски при автоматизации сложных инженерных задач.

Система опирается на многоуровневую архитектуру, где агент не получает прямого доступа к исполнению команд в терминале. Вместо этого используется прослойка, которая перехватывает запросы, анализирует их на соответствие заданным политикам безопасности и только после верификации передает на выполнение. Такой паттерн позволяет эффективно управлять жизненным циклом агента, ограничивая его «радиус поражения» при работе с кодовой базой.

Данная архитектура решает проблему доверия к автономным системам, которые должны взаимодействовать с файловой системой и внешними API. Разбор показывает, как через специализированные промпты и системные ограничения можно добиться предсказуемого поведения агента, даже если он обладает широкими полномочиями по редактированию файлов и запуску тестов.

Ключевые факты

  • Система контроля использует промежуточный слой для фильтрации команд перед их исполнением в среде разработки.
  • Механизм ограничивает доступ агента к критическим системным файлам и сетевым ресурсам через политики безопасности.
  • Архитектура обеспечивает воспроизводимость действий агента, что критически важно для отладки и аудита автоматизированных процессов.
  • Подход Anthropic демонстрирует переход от простого промпт-инжиниринга к созданию защищенных агентных сред с жестким контролем прав доступа.