Исследователи представили архитектуру Unfireable Safety Kernel — метод обеспечения безопасности ИИ-агентов, выносящий механизмы контроля за пределы среды исполнения самой модели. В отличие от традиционных системных промптов или фильтров, работающих внутри адресного пространства агента, этот подход изолирует защитные функции, предотвращая возможность их обхода через манипуляцию входными данными или перехват управления.
Современные ИИ-агенты часто имеют доступ к критическим API и инструментам, что делает их уязвимыми к атакам типа «jailbreak» или несанкционированному изменению логики поведения. Если защитный слой находится внутри того же процесса, что и модель, агент теоретически может модифицировать или отключить его, используя свои полномочия. Предложенная архитектура предполагает создание внешнего «ядра безопасности», которое контролирует выполнение команд на уровне инфраструктуры, независимо от внутренних состояний агента.
Такой подход переносит парадигму безопасности с попыток «воспитать» модель на принудительное ограничение её действий на уровне системных вызовов. Это позволяет гарантировать соблюдение политик безопасности даже в случаях, когда агент скомпрометирован или действует непредсказуемо. Система работает как посредник между агентом и внешней средой, проверяя каждое действие на соответствие заданным правилам до того, как оно будет передано в API или исполняемую среду.
Ключевые факты
- Архитектура Unfireable Safety Kernel выносит механизмы контроля из адресного пространства ИИ-агента.
- Метод предотвращает возможность отключения защитных фильтров через манипуляцию системными промптами.
- Защита реализуется на уровне инфраструктуры, контролируя доступ к API и внешним инструментам.
- Подход направлен на минимизацию рисков, связанных с автономным поведением агентов в критических системах.