arXiv · 14.06.2026 ·Обучение и дообучение

InstantForget удаляет вредоносные данные без переобучения модели

Исследователи из MIT и других университетов представили метод InstantForget, который позволяет удалять вредоносные данные (backdoors) из обученных моделей без переобучения. Это особенно важно для ИИ-агентов, которые могут сталкиваться с подозрительными или вредоносными данными в процессе работы.

InstantForget работает на этапе инференса, то есть модель остается неизменной, а вредоносные данные удаляются путем сброса признаков на этапе предсказания. Это позволяет сохранить полезность модели для чистых данных, одновременно удаляя вредоносные триггеры.

Исследование показывает, что метод эффективен против различных типов вредоносных атак, включая BadNets, WaNet, Blended и SIG. Например, для WaNet метод достигает точности 0.683, что значительно выше, чем у предыдущих подходов.

Для разработчиков ИИ-агентов этот метод может стать важным инструментом для обеспечения безопасности и надежности моделей. InstantForget позволяет избежать дорогостоящего и трудоемкого процесса переобучения модели, сохраняя при этом ее эффективность для легитимных задач.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Метод удаления данных из обученных моделей XGBoost Исследователи представили подход XGBoost-Forget, предназначенный для удаления влияния конкретных записей из уже обученных моделей градиентного бустинга. В отличие от большинства существующих методов машинного обучения, которые ориентированы на нейронные сети и работу с изображениями, данная разработка сфокусирована на табличных данных. Это критически важно для систем обнаружения сетевых вторжений, где оперативное обновление моделей без необходимости их полного переобучения является ключевым требованием. Hacker News · Исследования и наука Исследование механизмов забывания в ИИ-моделях при обучении на одном GPU Исследователи проанализировали феномен «забывания» в ИИ-моделях, разделив процесс на работу «мировой модели» (world model), которая сохраняет знания, и «актора» (actor), который их теряет. Работа демонстрирует, как оптимизация на одном GPU позволяет эффективно отслеживать динамику потери информации, предлагая новые методы контроля стабильности обучения и предотвращения катастрофического забывания в агентных системах. arXiv · Память и RAG Исследование геометрии памяти в непрерывном обучении Учёные изучили структуру памяти в непрерывном обучении, чтобы понять, как ИИ-агенты могут сохранять знания без катастрофического забывания. Исследование основано на фреймворке Accessibility Collapse и анализирует, как модели, такие как ResNet-18, теряют и восстанавливают информацию при обучении на последовательных задачах. Hacker News · Безопасность и алайнмент Новый метод MIT для выявления моделей, обученных на запрещенном контенте Исследователи MIT разработали метод обнаружения моделей, которые обучались на изображениях жестокого обращения с детьми (CASM), не требуя при этом генерации самого контента. Технология анализирует веса нейросети и выявляет специфические паттерны, оставшиеся после обучения на нелегальных датасетах, что позволяет проверять безопасность ИИ-моделей до их публичного развертывания. arXiv · Безопасность и алайнмент Inoculation Adapters: новый метод предотвращения нежелательного поведения LLM Исследователи представили метод Inoculation Adapters (IA) — технику дообучения через LoRA, направленную на борьбу с эмерджентным нежелательным поведением моделей. Метод позволяет избирательно подавлять опасные способности ИИ, укрепляя «иммунитет» модели к нежелательным чертам еще на этапе обучения, что снижает риск появления скрытых бэкдоров и непредсказуемых реакций при масштабировании систем. The Decoder · Безопасность и алайнмент Новый метод обучения ИИ через внедрение полезных поведенческих черт Исследователи OpenAI представили подход к обучению моделей, основанный на закреплении конкретных поведенческих паттернов, таких как правдивость и готовность к исправлению ошибок. Вместо использования конституционных ограничений, как это делает Anthropic, авторы применяют метод обучения с подкреплением на небольших наборах данных, содержащих примеры желаемого поведения. Такой подход позволяет модели переносить усвоенные принципы на различные предметные области, делая систему более устойчивой к попыткам манипуляции. arXiv · Память и RAG ReGrad: постобучение без потери знаний Исследователи из MIT и Google Research предложили новый подход к постобучению моделей, который решает проблему накопления весового дрейфа. В работе «Retrievable Gradients: Continual Post-Training Without Cumulative Weight Drift» авторы вводят концепцию ReGrad — метода, позволяющего моделям обновляться после развертывания без потери ранее усвоенных знаний. Hacker News · Безопасность и алайнмент Anthropic представила метод «выключателя» для опасных знаний в ИИ-моделях Исследователи Anthropic разработали метод удаления специфических опасных знаний из нейросетей без ущерба для их общей функциональности. Техника, названная «отключением знаний», позволяет избирательно подавлять информацию, например, о создании биологического оружия, сохраняя при этом способность модели к рассуждению и выполнению повседневных задач. Это важный шаг в решении проблемы «двойного назначения» технологий. arXiv · Память и RAG Новый подход к редактированию знаний в ИИ-агентах Исследователи из MIT и Университета Карнеги-Меллона представили новый метод редактирования знаний в ИИ-моделях, который позволяет обновлять конкретные факты, не затрагивая близлежащие, но нерелевантные данные. В статье, опубликованной на arXiv, авторы предлагают использовать память, которая извлекается во время инференса, и адаптеры для коррекции предпочтений модели. Hacker News · Оркестрация агентов Как защитить ИИ-агента от токсичных данных Разработчики ИИ-агентов сталкиваются с проблемой токсичных данных, которые могут искажать работу моделей. В статье на Digital Grease подробно разбирается подход к фильтрации и обработке вредоносных данных, которые могут попасть в поток информации, обрабатываемый агентом.

← Все материалы