arXiv · 30.06.2026 ·Безопасность и алайнмент

Новый метод защиты контента LLM через двойное семантическое водяное знакование

Исследователи представили метод Dual-Embedding Watermarking (DEW), повышающий устойчивость водяных знаков в текстах, сгенерированных большими языковыми моделями. В отличие от стандартных подходов, DEW использует комбинацию токеновых и контекстных эмбеддингов. Это позволяет сохранять идентификационный сигнал даже после глубокого перефразирования или машинного перевода, что критически важно для верификации авторства ИИ-контента.

Технология базируется на принципах обработки сигналов, применяя алгебраические операции в векторном пространстве для внедрения скрытого маркера. Метод не требует значительных вычислительных затрат при генерации, так как встраивание происходит на уровне эмбеддингов, а не через изменение вероятностного распределения токенов. Это минимизирует влияние на качество и связность текста, сохраняя при этом высокую точность обнаружения.

Разработка решает проблему уязвимости традиционных методов водяных знаков, которые часто теряются при редактировании текста человеком или сторонними алгоритмами. Использование двойного эмбеддинга обеспечивает более глубокую привязку сигнала к семантическому наполнению ответа, что делает систему устойчивой к атакам, направленным на удаление или искажение метаданных генерации.

Ключевые факты

Метод DEW использует алгебраические операции над токеновыми и контекстными векторами для формирования устойчивого сигнала.
Технология обеспечивает повышенную стойкость к перефразированию и переводу на другие языки по сравнению с классическими методами.
Внедрение водяного знака происходит на уровне эмбеддингов, что снижает деградацию качества текста.
Подход ориентирован на решение проблемы верификации контента в условиях активного использования инструментов редактирования.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы