Технологии встраивания водяных знаков в текст, генерируемый нейросетями, остаются уязвимыми для простых методов обхода. Исследование показывает, что даже незначительное перефразирование, использование синонимов или машинный перевод позволяют полностью стереть статистические следы модели. Это ставит под сомнение надежность существующих методов верификации контента и идентификации авторства ИИ в условиях реального использования.
Основная проблема заключается в том, что водяные знаки опираются на специфические закономерности выбора токенов при генерации. Любое вмешательство, нарушающее эту последовательность, разрушает структуру «сигнала». Даже если злоумышленник не стремится намеренно удалить маркер, обычное редактирование текста или прогон через другую языковую модель эффективно нивелируют работу алгоритмов защиты.
Подобная хрупкость методов маркировки означает, что полагаться на них как на инструмент борьбы с дипфейками или автоматизированным спамом невозможно. В текущих условиях любая система, основанная на детекции водяных знаков, будет давать высокий процент ложноотрицательных результатов, что делает её практически бесполезной для обеспечения достоверности информации в публичном пространстве.
Ключевые факты
- Водяные знаки в тексте основаны на манипуляции вероятностями выбора следующего токена (logit bias).
- Перефразирование текста с помощью сторонних инструментов или моделей полностью удаляет статистический отпечаток.
- Использование машинного перевода на другой язык и обратно является гарантированным способом разрушения структуры водяного знака.
- Методы защиты не выдерживают даже минимального человеческого редактирования, сохраняющего исходный смысл сообщения.
- Надежность верификации стремится к нулю при использовании методов «атаки», которые не требуют глубоких технических знаний или доступа к весам исходной модели.