arXiv · 25.06.2026 ·Исследования и наука

Новая таксономия для выявления скрытых смыслов в LLM

Исследователи представили систематизированную таксономию косвенных лингвистических выражений (ILE), используемых пользователями для обхода систем модерации в социальных сетях. Работа классифицирует механизмы кодирования смыслов, такие как алгоспик, эвфемизмы и состязательная обфускация. Предложенный подход позволяет моделям ИИ эффективнее распознавать завуалированный контент, который ранее оставался незамеченным из-за отсутствия явных ключевых слов.

Современные системы безопасности часто опираются на поиск конкретных лексем, что делает их уязвимыми перед постоянно меняющимся сленгом и метафорами. Авторы исследования предлагают перейти от анализа поверхностных форм текста к пониманию скрытых механизмов кодирования. Это позволяет ИИ-системам выявлять намерения пользователей, даже когда они используют нестандартные лингвистические конструкции для маскировки чувствительных тем.

Данная таксономия служит фундаментом для разработки более устойчивых алгоритмов фильтрации контента на платформах вроде Instagram (принадлежит Meta, признанной экстремистской и запрещённой в РФ) и других социальных сетях. Понимание того, как именно пользователи трансформируют язык для обхода цензуры, помогает создавать классификаторы, способные адаптироваться к новым формам «алгоспика» без необходимости постоянного переобучения на огромных массивах новых данных.

Ключевые факты

Исследование классифицирует косвенные лингвистические выражения (ILE) на основе их внутренних механизмов кодирования.
Основные категории включают алгоспик, эвфемизмы и методы состязательной обфускации, направленные на обход автоматизированных фильтров.
Предложенная таксономия позволяет абстрагироваться от конкретных слов и сосредоточиться на логике искажения смысла.
Метод направлен на повышение точности систем модерации в условиях постоянной эволюции пользовательского сленга.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы