Исследователи из MIT и других университетов опубликовали работу, в которой доказывают невозможность создания идеальной защиты от джейлбрейков для больших языковых моделей (LLM). Авторы обобщают существующие методы защиты и показывают, что ни один из них не может гарантировать абсолютную безопасность.
Основная проблема заключается в том, что любая защита может быть обойдена с помощью достаточно сложных и изощрённых атак. Исследователи рассматривают различные подходы, включая фильтрацию токенов, ограничение контекста и использование дополнительных моделей для обнаружения атак, но показывают, что все они имеют уязвимости.
Работа также подчёркивает, что безопасность LLM — это не только техническая, но и социальная проблема. Даже если технические методы защиты будут улучшены, пользователи могут находить новые способы обхода. Авторы призывают к более комплексному подходу, включающему как технические, так и организационные меры.
Для разработчиков ИИ-агентов это важный урок: безопасность — это не разовая задача, а постоянный процесс. Нужно быть готовыми к тому, что любая защита может быть обойдена, и разрабатывать системы, которые могут адаптироваться к новым угрозам.