Исследователи представили новый теоретический подход к изучению уязвимостей моделей классификации, основанный на анализе геометрии собственных чисел. Работа фокусируется на проблеме семантических состязательных атак, при которых незначительные перефразирования текста приводят к изменению предсказаний модели, несмотря на сохранение исходного смысла и близость векторных представлений.
Существующие методы оценки устойчивости нейросетей часто опираются на эмпирические тесты или анализ одной конкретной модели. Авторы статьи предлагают математический аппарат, позволяющий оценить, как именно семантические изменения трансформируют внутреннее пространство признаков модели. Использование аппарата обобщенных собственных чисел помогает выявить критические направления в латентном пространстве, где даже минимальные семантические сдвиги провоцируют ошибки классификации.
Данное исследование особенно актуально для финансовых систем, где точность анализа тональности текста критически важна для принятия решений. Предложенный метод позволяет глубже понять природу ошибок в задачах обработки естественного языка и создает базу для разработки более надежных архитектур, устойчивых к манипуляциям с входными данными, которые сохраняют семантическую эквивалентность для человека, но сбивают алгоритмы.