Разработана стратегия тестирования под названием GOAT (Goal-Oriented Adversarial Testing), предназначенная для выявления уязвимостей в автономных ИИ-агентах. В отличие от стандартных методов проверки чат-ботов, этот подход фокусируется на многошаговых процессах, где агент должен достичь конкретной вредоносной цели, выполняя последовательность действий в среде. Метод позволяет имитировать попытки обхода ограничений безопасности в реальных сценариях использования, где агент взаимодействует с внешними инструментами и API.
Техника GOAT предполагает создание специфических условий, в которых агент вынужден принимать решения, нарушающие заданные политики безопасности для выполнения поставленной задачи. В процессе тестирования оценивается не только текстовый ответ модели, но и цепочка рассуждений, а также корректность использования инструментов. Это помогает разработчикам выявлять слабые места в логике планирования и управления доступом, которые могут привести к несанкционированным действиям в автоматизированных системах.
Внедрение подобных стратегий red-teaming становится критически важным этапом при развертывании агентных систем в производственной среде. Использование структурированных атак позволяет количественно оценить устойчивость агента к манипуляциям и повысить надежность систем, работающих с конфиденциальными данными или имеющих доступ к выполнению операций в сторонних сервисах.