Proctor — это новый инструмент для создания подписанных изолированных сред, предназначенный для тестирования ИИ-агентов, пишущих код. Решение позволяет стандартизировать окружение для бенчмарков, гарантируя воспроизводимость результатов и безопасность при выполнении кода, сгенерированного моделями. Система использует криптографические подписи для проверки целостности пакетов, что исключает возможность подмены данных или вредоносного воздействия в процессе оценки.
Разработка решает критическую проблему оценки агентных систем: отсутствие стандартизированных и безопасных «песочниц». В текущих условиях бенчмарки часто страдают от непредсказуемого поведения среды, что делает сравнение производительности разных моделей или агентов затруднительным. Proctor предлагает подход, при котором каждый тест упаковывается в неизменяемый контейнер с четко определенными зависимостями и правами доступа.
Использование подписанных бандлов позволяет исследователям делиться результатами тестов с уверенностью в их достоверности. Это особенно важно для оценки способности агентов к автономному решению задач разработки, где требуется доступ к файловой системе и выполнение внешних команд. Инструмент минимизирует риски, связанные с запуском неконтролируемого кода, и обеспечивает прозрачность процесса тестирования на всех этапах.
Ключевые факты
- Proctor обеспечивает изоляцию среды выполнения для ИИ-агентов через использование подписанных бандлов.
- Система предотвращает несанкционированные изменения в тестовом окружении с помощью криптографической верификации.
- Инструмент ориентирован на стандартизацию бенчмарков для агентов, специализирующихся на написании и отладке программного кода.
- Решение позволяет безопасно запускать агентные задачи в контролируемых «песочницах», исключая риски для хост-системы.