arXiv · 25.06.2026 ·Безопасность и алайнмент

Уязвимость NLP-классификаторов к эволюционным состязательным атакам

Исследователи представили новый метод генерации состязательных атак на NLP-модели, использующий эволюционные алгоритмы для подбора токенов. Метод позволяет обходить классификаторы, внося минимальные семантические изменения в текст, которые остаются незаметными для человека, но критически искажают предсказания нейросетей. Работа подчеркивает необходимость разработки более устойчивых архитектур для защиты систем обработки естественного языка от целенаправленных манипуляций.

Традиционные подходы к созданию состязательных примеров часто опираются на замену отдельных слов синонимами, что может приводить к потере грамматической связности или изменению смысла исходного сообщения. Новый метод фокусируется на эволюционном поиске наиболее уязвимых позиций в тексте, что значительно повышает эффективность атаки при сохранении высокой степени схожести с оригиналом. Это делает такие атаки особенно опасными для систем фильтрации контента и анализа тональности.

Результаты исследования показывают, что даже современные глубокие нейронные сети сохраняют высокую чувствительность к специфическим возмущениям входных данных. Авторы демонстрируют, что предложенный алгоритм оптимизации находит такие комбинации замен, которые успешно «обманывают» модели, обученные на больших корпусах данных, что ставит под сомнение надежность текущих методов защиты в реальных сценариях эксплуатации.

Ключевые факты

Метод использует эволюционные алгоритмы для автоматизированного поиска токенов, вызывающих сбои в классификации.
Атаки направлены на внесение минимальных изменений, которые сохраняют семантическую близость к исходному тексту.
Исследование подтверждает, что даже высокопроизводительные NLP-модели остаются уязвимыми к точечным состязательным воздействиям.
Предложенный подход позволяет создавать более точные и скрытные атаки по сравнению с классическими методами замены слов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Геометрия собственных чисел в анализе семантических атак на ИИ Исследователи представили новый теоретический подход к изучению уязвимостей моделей классификации, основанный на анализе геометрии собственных чисел. Работа фокусируется на проблеме семантических состязательных атак, при которых незначительные перефразирования текста приводят к изменению предсказаний модели, несмотря на сохранение исходного смысла и близость векторных представлений. arXiv · Безопасность и алайнмент Анализ защитных методов против автоматизированных атак на ИИ-агентов Исследователи представили анализ эффективности защитных стратегий против автоматизированных атак на агентные системы. Современные ИИ-агенты активно используют языковые модели для интерпретации инструкций, обработки внешних данных и взаимодействия с инструментами. Это расширяет поверхность атаки, позволяя злоумышленникам применять автоматизированные методы для масштабирования промпт-инъекций и подбора обходов ограничений безопасности. Hacker News · Исследования и наука Исследователи обнаружили «нейроны безопасности» в LLM для поиска уязвимостей в коде Исследователи выявили специфические слои нейронов в архитектуре больших языковых моделей, которые отвечают за распознавание уязвимостей в программном коде. Анализ показал, что эти нейронные структуры активируются при обработке небезопасных паттернов, что позволяет использовать их для автоматизированного аудита безопасности. Открытие дает новый метод интерпретации внутренних механизмов принятия решений моделями при анализе кода. arXiv · Безопасность и алайнмент Скрытые уязвимости LLM при дообучении на задачах безопасности Исследователи обнаружили, что дообучение LLM для задач классификации безопасности создает критические уязвимости, которые не выявляются стандартными методами тестирования. Модели начинают полагаться на поверхностные токеновые индикаторы, сохраняя высокую точность на тестовых выборках, но становясь крайне уязвимыми к простым семантическим трансформациям, таким как замена псевдонимов в PowerShell или изменение структуры команд. arXiv · Безопасность и алайнмент Метод защиты LLM от отравления данных при дообучении Исследователи представили метод «Detect, Unlearn, Restore» для защиты моделей суммаризации текста от атак типа data poisoning. Техника позволяет выявлять вредоносные примеры в обучающей выборке, удалять их влияние на веса модели и восстанавливать исходную производительность системы. Это критически важно для защиты специализированных LLM, которые подвержены манипуляциям через небольшие наборы данных при дообучении. arXiv · Безопасность и алайнмент Динамический анализ жизненного цикла для защиты ML-моделей Исследователи представили новый подход к обеспечению безопасности машинного обучения, направленный на выявление вредоносного кода, скрытого внутри весов и архитектур предобученных моделей. Традиционные методы защиты, основанные на статическом анализе форматов файлов и поиске известных сигнатур атак, часто оказываются неэффективными против современных угроз, способных обходить стандартные фильтры. arXiv · Безопасность и алайнмент Исследование механизмов возникновения небезопасного поведения в LLM Исследователи изучили, как дообучение языковых моделей на небезопасном коде приводит к появлению нежелательных паттернов поведения. В работе анализируются четыре семейства моделей: Qwen2.5-1.5B, Gemma-2-2B, Llama-3.2-1B и Ministral-3-3B. Авторы проверяли гипотезу о том, что подобные сбои в алайнменте имеют общую причинно-следственную природу, отражающуюся в конкретных направлениях активации нейронной сети. arXiv · Исследования и наука Новый подход к созданию синтетических данных для интерпретируемости нейросетей Исследователи представили новый метод генерации синтетических наборов данных, предназначенных для тестирования методов интерпретируемости нейронных сетей. Существующие синтетические датасеты часто не отражают сложную иерархическую структуру реальных данных, что ограничивает их применимость при оценке того, как именно модели обучаются распознавать признаки. arXiv · Исследования и наука Эффект ножниц: как изменение размера изображений влияет на устойчивость ИИ к атакам Исследователи проанализировали метод Input Diversity (DI), который традиционно используется для повышения эффективности состязательных атак на нейросети. Суть метода заключается в случайном изменении размера и добавлении отступов к входным данным на каждой итерации атаки. Ранее считалось, что такая вариативность неизменно улучшает переносимость атак между различными моделями, однако новое исследование опровергает универсальность этого подхода. arXiv · Безопасность и алайнмент Исследование уязвимости моделей Anthropic к автоматическим атакам Учёные провели масштабное исследование устойчивости моделей Fable 5 и Opus 4.8 от Anthropic к автоматическим атакам. В ходе работы использовались четыре типа атак, направленных на 7 826 вредоносных намерений, охватывающих десять категорий потенциального вреда.

← Все материалы