arXiv · 14.06.2026 ·Безопасность и алайнмент

GAS-Leak-LLM: генетический алгоритм для взлома LLM

Исследователи из Университета Торонто и MIT представили новый метод взлома языковых моделей (LLM) — GAS-Leak-LLM. Этот подход использует генетические алгоритмы для оптимизации суффиксов в запросах, что позволяет обходить механизмы защиты и получать нежелательные ответы от моделей. Авторы демонстрируют, что даже хорошо защищённые коммерческие системы уязвимы к таким атакам.

GAS-Leak-LLM работает в чёрном ящике, то есть не требует доступа к внутренним параметрам модели. Это делает метод особенно опасным, так как он может быть применён к любой LLM без знания её архитектуры. Исследователи показывают, что их подход эффективнее существующих техник взлома, таких как prompt injection или adversarial prompts.

Для разработчиков ИИ-агентов, таких как Jarv, это исследование важно по нескольким причинам. Во-первых, оно показывает, что даже самые современные механизмы защиты могут быть обойдены. Во-вторых, метод GAS-Leak-LLM может быть использован для тестирования и улучшения собственных систем защиты. В-третьих, это напоминает о необходимости постоянного мониторинга и обновления механизмов безопасности.

Авторы предлагают несколько рекомендаций по улучшению защиты LLM, включая использование более сложных механизмов детекции и блокировки вредоносных запросов. Они также предлагают исследовать возможности использования генетических алгоритмов для улучшения защиты, а не только для взлома. Исследование опубликовано на arXiv и доступно по ссылке.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Безопасность и алайнмент Метод обфускации кода для защиты от анализа с помощью LLM Исследователи представили новый подход к защите исходного кода от анализа с помощью больших языковых моделей. Метод использует состязательную обфускацию, которая делает код нечитаемым или вводящим в заблуждение для ИИ-агентов, при этом сохраняя его функциональность для компиляторов. Это решение направлено на предотвращение автоматизированного реверс-инжиниринга и кражи интеллектуальной собственности, выполняемых с помощью LLM. Hacker News · Безопасность и алайнмент Уязвимости в системах безопасности LLM при анализе кода Исследователи продемонстрировали методы обхода механизмов безопасности в больших языковых моделях, используемых для автоматического сканирования кода. Манипулируя промптами, злоумышленники могут заставить ИИ игнорировать наличие вредоносного ПО в анализируемых фрагментах. Это создает серьезные риски для инструментов безопасности, полагающихся на LLM для выявления уязвимостей и бэкдоров в программном обеспечении. arXiv · Безопасность и алайнмент Исследование: способность LLM распознавать атаки через префиллы Исследователи проанализировали способность больших языковых моделей к саморефлексии в контексте безопасности. В ходе эксперимента проверялось, могут ли модели самостоятельно определять, что их ответ был скомпрометирован в результате атаки через «враждебный префилл» (adversarial prefill). В тестировании участвовали десять моделей с открытыми весами объемом от 3 до 70 миллиардов параметров, а также четыре специализированных бенчмарка безопасности. Hacker News · Безопасность и алайнмент Почему идеальной защиты от джейлбрейков LLM не существует Исследователи из MIT и других университетов опубликовали работу, в которой доказывают невозможность создания идеальной защиты от джейлбрейков для больших языковых моделей (LLM). Авторы обобщают существующие методы защиты и показывают, что ни один из них не может гарантировать абсолютную безопасность. Artificial intelligence – MIT Technology Review · Безопасность и алайнмент Фундаментальная уязвимость архитектуры LLM делает их неуязвимыми для атак Исследователи представили на конференции ICML доказательство того, что современные большие языковые модели обладают неустранимым архитектурным изъяном. Согласно выводам ученых, принципы работы LLM делают их принципиально уязвимыми для состязательных атак. Это открытие ставит под сомнение возможность создания полностью защищенных систем, так как проблема заложена в самой природе обработки данных нейросетями, а не в ошибках реализации. Hacker News · Безопасность и алайнмент Исследование уязвимостей ИИ-детекторов к адаптивным агентным атакам Исследователи представили новый метод атак на системы автоматизированного поиска уязвимостей в коде, основанные на LLM. Адаптивные агентные атаки используют специально сформированные комментарии, которые обходят механизмы защиты, заставляя модели игнорировать критические дефекты. Это ставит под сомнение надежность существующих инструментов безопасности, полагающихся исключительно на ИИ-анализ для проверки программного обеспечения перед релизом. Hacker News · Оценка и бенчмарки Эффективность LLM в фильтрации ложноположительных срабатываний SAST Исследование оценивает способность современных больших языковых моделей автоматизировать триаж результатов статического анализа кода (SAST). В ходе эксперимента проверялось, насколько точно модели могут определять, является ли найденная уязвимость реальной угрозой или ложным срабатыванием. Результаты показывают, что использование LLM позволяет значительно снизить нагрузку на специалистов по безопасности, отсеивая до 80% неактуальных уведомлений при сохранении высокой точности обнаружения критических багов. Hacker News · Исследования и наука Исследование: влияние методов «аблитерации» на безопасность LLM при анализе уязвимостей Исследователи проанализировали, как методы удаления «отказов» (refusal) из моделей влияют на их эффективность в задачах поиска уязвимостей в коде. Сравнение стандартных моделей с «аблитерированными» версиями показало, что снятие ограничений безопасности не всегда повышает качество анализа, а иногда приводит к непредсказуемым результатам при выполнении сложных задач по кибербезопасности. arXiv · Модели и релизы Новый метод обнаружения ошибок в цепочках рассуждений LLM Исследователи из MIT и Университета Карнеги-Меллона предложили новый подход к выявлению ошибок в цепочках рассуждений языковых моделей (LLM) без использования меток. Их метод, основанный на операдной теории, позволяет обнаруживать несоответствия в логических цепочках, которые модели строят при решении сложных задач. Hacker News · Безопасность и алайнмент Использование «опьянения» LLM для поиска уязвимостей в ядре Linux Исследователи представили метод повышения эффективности LLM при поиске уязвимостей типа Out-of-Bounds (OOB) write в ядре Linux. Техника, названная «опьянением» модели, заключается в намеренном снижении параметров температуры и вероятностных ограничений, что заставляет нейросеть исследовать менее очевидные пути в коде и находить критические ошибки, которые обычно игнорируются при стандартных настройках генерации.

← Все материалы