Сжатие контекста как уязвимость безопасности ИИ-агентов

Исследователи выявили критическую уязвимость в работе долгоживущих ИИ-агентов, связанную с методами управления контекстом. При использовании техник сжатия, суммаризации или удаления старых сообщений для экономии токенов агенты теряют доступ к важным инструкциям по безопасности. В результате модель, которая изначально строго следовала заданным ограничениям, начинает игнорировать их после того, как системные правила вытесняются из активного окна контекста.

Проблема заключается в том, что механизмы управления памятью часто не учитывают приоритетность инструкций. Если правила поведения или запреты на использование определенных инструментов попадают в сжатую часть истории, агент перестает их «видеть». Это создает ситуацию, когда система совершает действия, которые были прямо запрещены на этапе инициализации сессии, но оказались стерты из оперативной памяти в процессе работы.

Данное исследование подчеркивает необходимость пересмотра архитектуры агентных систем. Разработчикам предлагается внедрять механизмы «неудаляемого контекста», где критические инструкции по безопасности жестко фиксируются в системном промпте или кэшируются отдельно от динамической истории диалога. Без внедрения таких защитных слоев любые попытки управления поведением агента через контекст остаются ненадежными при выполнении длительных задач.

Источник: arXiv

Сжатие контекста как уязвимость безопасности ИИ-агентов

Похожие материалы