Исследователи из MIT и других университетов предложили новый способ защиты языковых моделей от кражи знаний. В статье, опубликованной на arXiv, они описывают метод Knowledge Trap, который использует "медовые ловушки" для знаний (Honeypot Knowledge Graph, HKG) и хлебные крошки для направления атак на нерелевантные данные.

Проблема в том, что коммерческие API языковых моделей уязвимы к атакам на извлечение знаний. Существующие методы защиты либо действуют слишком поздно, либо ухудшают качество работы для легитимных пользователей. Knowledge Trap предлагает альтернативу: вместо блокировки атак, он перенаправляет их на знания, которые сложно перенести в другие модели.

Механизм работает через HKG, который содержит ложные или низкоценные данные. Атакующие, пытаясь извлечь знания, попадают в эти ловушки, а хлебные крошки (breadcrumb-guided exploration) направляют их дальше по ложному следу. Это позволяет защитить основную модель без ущерба для легитимных пользователей.

Для разработчиков ИИ-агентов, таких как Jarv, это важно, потому что защита моделей от кражи знаний критична для безопасности и устойчивости сервисов. Knowledge Trap предлагает эффективный способ минимизировать риски без потери функциональности.