arXiv · 17.06.2026 ·Безопасность и алайнмент

Динамический анализ жизненного цикла для защиты ML-моделей

Исследователи представили новый подход к обеспечению безопасности машинного обучения, направленный на выявление вредоносного кода, скрытого внутри весов и архитектур предобученных моделей. Традиционные методы защиты, основанные на статическом анализе форматов файлов и поиске известных сигнатур атак, часто оказываются неэффективными против современных угроз, способных обходить стандартные фильтры.

Предложенная методика фокусируется на динамическом анализе поведения модели на протяжении всего её жизненного цикла. Система отслеживает выполнение операций в процессе инференса, выявляя аномалии, которые могут указывать на внедренные вредоносные инструкции. Такой подход позволяет обнаруживать скрытые угрозы, даже если они не соответствуют ранее зафиксированным шаблонам атак, обеспечивая более глубокий уровень проверки целостности моделей перед их развертыванием в производственных средах.

Разработка решает проблему доверия к сторонним ML-артефактам, которые становятся всё более распространенными в корпоративных инфраструктурах. Внедрение динамического контроля позволяет минимизировать риски эксплуатации уязвимостей, встроенных в модели на этапе обучения или передачи, и создает основу для более надежных пайплайнов использования ИИ-решений в критически важных бизнес-процессах.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Безопасность и алайнмент OpenAI представила подходы к обучению моделей с долгосрочной пользой OpenAI опубликовала исследование, посвященное методам обучения с подкреплением (RL), направленным на создание моделей, чье поведение остается полезным и безопасным в долгосрочной перспективе. Основной фокус работы смещен с краткосрочного выполнения задач на формирование устойчивых паттернов поведения, которые приносят пользу пользователю на протяжении длительного взаимодействия. Hacker News · Безопасность и алайнмент Уязвимости в системах безопасности LLM при анализе кода Исследователи продемонстрировали методы обхода механизмов безопасности в больших языковых моделях, используемых для автоматического сканирования кода. Манипулируя промптами, злоумышленники могут заставить ИИ игнорировать наличие вредоносного ПО в анализируемых фрагментах. Это создает серьезные риски для инструментов безопасности, полагающихся на LLM для выявления уязвимостей и бэкдоров в программном обеспечении. arXiv · Безопасность и алайнмент Метод защиты LLM от отравления данных при дообучении Исследователи представили метод «Detect, Unlearn, Restore» для защиты моделей суммаризации текста от атак типа data poisoning. Техника позволяет выявлять вредоносные примеры в обучающей выборке, удалять их влияние на веса модели и восстанавливать исходную производительность системы. Это критически важно для защиты специализированных LLM, которые подвержены манипуляциям через небольшие наборы данных при дообучении. arXiv · Безопасность и алайнмент Метод онлайн-мониторинга безопасности для LLM в реальном времени Исследователи представили новый подход к обеспечению безопасности LLM, позволяющий выявлять опасные генерации непосредственно в процессе работы модели. Метод использует внешний верификатор, который анализирует выходные данные и подает сигнал тревоги при превышении заданного порога риска. Такая система позволяет динамически контролировать безопасность ответов, даже если модель прошла стандартное обучение на соответствие заданным нормам. The Decoder · Безопасность и алайнмент Новый метод обучения ИИ через внедрение полезных поведенческих черт Исследователи OpenAI представили подход к обучению моделей, основанный на закреплении конкретных поведенческих паттернов, таких как правдивость и готовность к исправлению ошибок. Вместо использования конституционных ограничений, как это делает Anthropic, авторы применяют метод обучения с подкреплением на небольших наборах данных, содержащих примеры желаемого поведения. Такой подход позволяет модели переносить усвоенные принципы на различные предметные области, делая систему более устойчивой к попыткам манипуляции. arXiv · Безопасность и алайнмент Новый метод атаки на LLM через скрытые вредоносные данные в обучающих выборках Исследователи представили метод Embedded Attack, позволяющий внедрять вредоносные инструкции в безобидные наборы данных для дообучения языковых моделей. В отличие от классических атак, этот способ скрывает опасные паттерны внутри стандартных задач, что делает их невидимыми для существующих систем фильтрации и защитных механизмов, которые анализируют примеры на индивидуальном уровне. arXiv · Исследования и наука Математический подход к безопасности обучения моделей через Langevin Dynamics Исследователи представили новый теоретический метод оценки рисков при обучении нейронных сетей, использующих стохастический градиентный спуск. Авторы рассматривают процесс обучения как передемпфированную динамику Ланжевена и выводят математические границы вероятности попадания параметров модели в «опасные зоны» (failure regions), что позволяет контролировать стабильность и безопасность весов в процессе оптимизации функции потерь. Hacker News · Безопасность и алайнмент Новый метод MIT для выявления моделей, обученных на запрещенном контенте Исследователи MIT разработали метод обнаружения моделей, которые обучались на изображениях жестокого обращения с детьми (CASM), не требуя при этом генерации самого контента. Технология анализирует веса нейросети и выявляет специфические паттерны, оставшиеся после обучения на нелегальных датасетах, что позволяет проверять безопасность ИИ-моделей до их публичного развертывания. arXiv · Безопасность и алайнмент Новый метод дистилляции для защиты LLM от вредоносных данных Исследователи представили метод On-Policy Distillation, направленный на повышение безопасности LLM при дообучении. Подход решает проблему внедрения вредоносного поведения через скомпрометированные обучающие выборки. Используя механизм маршрутизации (routing), система позволяет эффективно перенастраивать модели, сохраняя их профессиональные навыки и одновременно блокируя попытки обхода этических ограничений, которые часто встречаются в стандартных сценариях fine-tuning. Hacker News · Исследования и наука Исследователи обнаружили «нейроны безопасности» в LLM для поиска уязвимостей в коде Исследователи выявили специфические слои нейронов в архитектуре больших языковых моделей, которые отвечают за распознавание уязвимостей в программном коде. Анализ показал, что эти нейронные структуры активируются при обработке небезопасных паттернов, что позволяет использовать их для автоматизированного аудита безопасности. Открытие дает новый метод интерпретации внутренних механизмов принятия решений моделями при анализе кода.

← Все материалы