Исследователи из Университета Торонто и MIT представили новый метод взлома языковых моделей (LLM) — GAS-Leak-LLM. Этот подход использует генетические алгоритмы для оптимизации суффиксов в запросах, что позволяет обходить механизмы защиты и получать нежелательные ответы от моделей. Авторы демонстрируют, что даже хорошо защищённые коммерческие системы уязвимы к таким атакам.
GAS-Leak-LLM работает в чёрном ящике, то есть не требует доступа к внутренним параметрам модели. Это делает метод особенно опасным, так как он может быть применён к любой LLM без знания её архитектуры. Исследователи показывают, что их подход эффективнее существующих техник взлома, таких как prompt injection или adversarial prompts.
Для разработчиков ИИ-агентов, таких как Jarv, это исследование важно по нескольким причинам. Во-первых, оно показывает, что даже самые современные механизмы защиты могут быть обойдены. Во-вторых, метод GAS-Leak-LLM может быть использован для тестирования и улучшения собственных систем защиты. В-третьих, это напоминает о необходимости постоянного мониторинга и обновления механизмов безопасности.
Авторы предлагают несколько рекомендаций по улучшению защиты LLM, включая использование более сложных механизмов детекции и блокировки вредоносных запросов. Они также предлагают исследовать возможности использования генетических алгоритмов для улучшения защиты, а не только для взлома. Исследование опубликовано на arXiv и доступно по ссылке.