Исследователи из MIT и других университетов представили метод InstantForget, который позволяет удалять вредоносные данные (backdoors) из обученных моделей без переобучения. Это особенно важно для ИИ-агентов, которые могут сталкиваться с подозрительными или вредоносными данными в процессе работы.

InstantForget работает на этапе инференса, то есть модель остается неизменной, а вредоносные данные удаляются путем сброса признаков на этапе предсказания. Это позволяет сохранить полезность модели для чистых данных, одновременно удаляя вредоносные триггеры.

Исследование показывает, что метод эффективен против различных типов вредоносных атак, включая BadNets, WaNet, Blended и SIG. Например, для WaNet метод достигает точности 0.683, что значительно выше, чем у предыдущих подходов.

Для разработчиков ИИ-агентов этот метод может стать важным инструментом для обеспечения безопасности и надежности моделей. InstantForget позволяет избежать дорогостоящего и трудоемкого процесса переобучения модели, сохраняя при этом ее эффективность для легитимных задач.