arXiv · 17.06.2026 ·Машинное обучение

Геометрия собственных чисел в анализе семантических атак на ИИ

Исследователи представили новый теоретический подход к изучению уязвимостей моделей классификации, основанный на анализе геометрии собственных чисел. Работа фокусируется на проблеме семантических состязательных атак, при которых незначительные перефразирования текста приводят к изменению предсказаний модели, несмотря на сохранение исходного смысла и близость векторных представлений.

Существующие методы оценки устойчивости нейросетей часто опираются на эмпирические тесты или анализ одной конкретной модели. Авторы статьи предлагают математический аппарат, позволяющий оценить, как именно семантические изменения трансформируют внутреннее пространство признаков модели. Использование аппарата обобщенных собственных чисел помогает выявить критические направления в латентном пространстве, где даже минимальные семантические сдвиги провоцируют ошибки классификации.

Данное исследование особенно актуально для финансовых систем, где точность анализа тональности текста критически важна для принятия решений. Предложенный метод позволяет глубже понять природу ошибок в задачах обработки естественного языка и создает базу для разработки более надежных архитектур, устойчивых к манипуляциям с входными данными, которые сохраняют семантическую эквивалентность для человека, но сбивают алгоритмы.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Новый метод идентификации языка на основе композиционного анализа данных Исследователи представили эффективный метод определения языка текста, использующий принципы композиционного анализа данных и логарифмически-отношенную геометрию. В отличие от тяжеловесных нейросетевых архитектур, требующих значительных вычислительных мощностей, предложенный классификатор работает за линейное время, обеспечивая высокую точность при минимальных затратах ресурсов, что делает его оптимальным решением для обработки потоковых данных и задач с ограниченным бюджетом вычислений. arXiv · Безопасность и алайнмент Уязвимость NLP-классификаторов к эволюционным состязательным атакам Исследователи представили новый метод генерации состязательных атак на NLP-модели, использующий эволюционные алгоритмы для подбора токенов. Метод позволяет обходить классификаторы, внося минимальные семантические изменения в текст, которые остаются незаметными для человека, но критически искажают предсказания нейросетей. Работа подчеркивает необходимость разработки более устойчивых архитектур для защиты систем обработки естественного языка от целенаправленных манипуляций. arXiv · Исследования и наука Исследование интерпретируемости LLM через разреженные автокодировщики Исследователи проанализировали ограничения использования разреженных автокодировщиков (SAE) для интерпретации нейросетей. Выяснилось, что текущие методы часто не учитывают разрыв между активацией признаков и их реальным влиянием на поведение модели. Авторы работы предложили новый подход к анализу геометрии признаков, который позволяет точнее предсказывать причинно-следственные эффекты и улучшить управление генерацией текста через манипуляцию внутренними представлениями. arXiv · Исследования и наука Исследование: как языковые модели распознают грамматику через линейные представления Исследователи изучили способность нейросетевых языковых моделей различать грамматически правильные и ошибочные конструкции. В отличие от традиционных методов, основанных на сравнении вероятностей токенов, работа фокусируется на анализе линейных представлений внутри моделей. Авторы доказывают, что грамматические закономерности кодируются в скрытых слоях нейросетей как геометрически различимые структуры, что позволяет классифицировать предложения независимо от их вероятностного веса. arXiv · Исследования и наука Проблема интерпретируемости LLM: почему автокодировщики ошибаются в объяснениях Исследователи выявили критический изъян в методах интерпретации нейросетей через автокодировщики на естественном языке. Текущие подходы оценивают точность объяснений скрытых состояний модели по качеству их реконструкции. Однако этот метод нечувствителен к фактическим ошибкам в тексте: если ложное утверждение не влияет на итоговое восстановление активации, оно остается незамеченным, что подрывает доверие к таким объяснениям. arXiv · Исследования и наука Аудит нейронных сетей: проверка причинно-следственных связей в LLM Исследователи представили новый метод аудита нейронных сетей, позволяющий оценить, какие именно группы нейронов в LLM отвечают за конкретные функции, включая механизмы отказа от вредоносных запросов. Авторы использовали подход «обнуления» строк нейронов, чтобы напрямую проверить, насколько методы атрибуции соответствуют реальным причинно-следственным связям внутри модели, а не просто коррелируют с её поведением при генерации текста. arXiv · Исследования и наука Интерпретация механизмов внимания через синтез программ Исследователи представили новый метод интерпретации нейронных сетей, который позволяет заменить непрозрачные вычисления моделей на понятные человеку символьные описания. В центре внимания оказались механизмы внимания (attention heads) в трансформерах, которые традиционно считаются «черным ящиком» из-за сложности их внутренних операций. arXiv · Исследования и наука Новый метод предсказания сложности обработки предложений в ИИ Исследователи предложили модель «синтаксического обновления убеждений» для объяснения трудностей, возникающих у людей при чтении предложений типа «garden path». В отличие от традиционной метрики лексического удивления (lexical surprisal), которая часто ошибается в таких случаях, новый подход учитывает динамическую переоценку синтаксической структуры при получении новой информации, что повышает точность моделирования когнитивных процессов. arXiv · Оценка и бенчмарки Исследование устойчивости VLM к визуальным искажениям при распознавании текста Исследователи проанализировали устойчивость мультимодальных моделей (VLM) к деградации изображений при выполнении задач OCR-рассуждений. Работа выявила, что даже незначительные визуальные помехи существенно снижают точность распознавания и логических выводов моделей. Авторы представили методологию оценки, позволяющую измерить влияние структурных искажений и шума на способность нейросетей интерпретировать текст на сложных визуальных данных. arXiv · Исследования и наука Исследование устойчивости нейросетей к случайным возмущениям входных данных Исследователи представили новый подход к оценке устойчивости нейронных сетей при воздействии случайного шума на входные данные. Авторы проанализировали взаимосвязь между точностью модели, выраженной через среднеквадратичную ошибку (MSE), и её стабильностью. Разработанная метрика позволяет с высокой вероятностью определять верхнюю границу ошибки нейросети, что критически важно для повышения надежности систем машинного обучения в реальных условиях эксплуатации.

← Все материалы