arXiv · 02.07.2026 ·Безопасность и алайнмент

Новый метод RFM-AGOP для выявления многомерных пространств отказа в LLM

Исследователи представили метод RFM-AGOP для идентификации многомерных подпространств, отвечающих за отказ моделей отвечать на вредоносные запросы. В отличие от традиционных подходов, фокусирующихся на одномерных векторах, новый алгоритм позволяет точнее выделять сложные паттерны поведения нейросетей. Это открывает новые возможности для интерпретируемости моделей и более тонкой настройки механизмов безопасности без ущерба для общей производительности системы.

Современные методы обеспечения безопасности LLM часто опираются на поиск конкретных направлений в активациях модели, которые коррелируют с нежелательным поведением. Однако последние исследования показывают, что концепции, такие как отказ от ответа, распределены в многомерных пространствах. Существующие инструменты для извлечения этих структур часто требуют значительных вычислительных ресурсов или обладают низкой точностью при работе с глубокими слоями нейронных сетей.

Метод RFM-AGOP (Refusal Subspaces via Recursive Feature Machines and AGOP) предлагает более эффективный способ анализа активаций. Он позволяет выявлять скрытые закономерности, которые определяют, как именно модель принимает решение о блокировке запроса. Это дает разработчикам возможность не просто «запрещать» определенные темы, а глубже понимать внутреннюю логику принятия решений, что критически важно для создания предсказуемых и надежных ИИ-систем.

Ключевые факты

Метод RFM-AGOP предназначен для анализа многомерных подпространств активаций, отвечающих за отказ модели от выполнения вредоносных запросов.
Алгоритм превосходит существующие методы в точности выделения сложных поведенческих паттернов, которые не сводятся к одному линейному направлению.
Исследование направлено на улучшение интерпретируемости LLM, позволяя разработчикам точнее контролировать механизмы безопасности.
Работа опубликована на платформе arXiv и предлагает новый математический подход к управлению внутренними состояниями нейросетей.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Безопасность и алайнмент Анализ механизмов отказа LLM в выполнении запросов Исследование поведения открытых языковых моделей при получении потенциально опасных запросов выявило, что механизмы отказа часто срабатывают избыточно. Автор проанализировал, как именно модели классифицируют промпты и в какой момент принимают решение об отказе, опираясь на архитектурные особенности и методы обучения, что позволяет лучше понять границы безопасности современных систем и способы их настройки. Hacker News · Исследования и наука Автоматизированный поиск алгоритмов удаления концепций в LLM Исследователи представили новый подход к автоматическому поиску алгоритмов для удаления нежелательных концепций из весов нейронных сетей. Используя агентную систему, авторы смогли обнаружить эффективные методы «стирания» знаний, которые превосходят существующие ручные подходы. Это позволяет точечно корректировать поведение моделей, минимизируя побочные эффекты для общей производительности и сохраняя функциональность системы после удаления конкретных данных или концепций. arXiv · Исследования и наука Новый метод анализа внимания LLM при работе с длинным контекстом Исследователи представили метод Logit-Contribution Scoring для идентификации «нелитеральных» голов внимания в LLM. В отличие от традиционных подходов, которые ищут прямое копирование токенов из контекста, новый метод выявляет механизмы синтеза смыслов. Это позволяет точнее интерпретировать, как модели формируют ответы на основе длинных документов, не полагаясь на простое цитирование фрагментов текста. arXiv · Безопасность и алайнмент Исследование механизмов возникновения небезопасного поведения в LLM Исследователи изучили, как дообучение языковых моделей на небезопасном коде приводит к появлению нежелательных паттернов поведения. В работе анализируются четыре семейства моделей: Qwen2.5-1.5B, Gemma-2-2B, Llama-3.2-1B и Ministral-3-3B. Авторы проверяли гипотезу о том, что подобные сбои в алайнменте имеют общую причинно-следственную природу, отражающуюся в конкретных направлениях активации нейронной сети. arXiv · Машинное обучение Grad Detect: новый метод выявления галлюцинаций через анализ градиентов Исследователи представили Grad Detect — метод обнаружения галлюцинаций в больших языковых моделях, основанный на анализе градиентов. В отличие от подходов, требующих множественных прогонов или внешних баз знаний, технология анализирует паттерны градиентов на разных слоях нейросети в ходе одного цикла обратного распространения ошибки. Это позволяет эффективно выявлять недостоверные ответы непосредственно в процессе генерации текста. arXiv · Исследования и наука Новый метод повышения надежности LLM в условиях неопределенности Исследователи представили новый подход к генерации ответов и принятию решений для больших языковых моделей (LLM) в задачах с высокой степенью субъективности. Метод позволяет моделям лучше оценивать уровень собственной неуверенности, что критически важно для минимизации галлюцинаций и повышения доверия к результатам ИИ в сложных сценариях, где однозначный ответ отсутствует или требует экспертной интерпретации. arXiv · Модели и релизы Новый метод обнаружения ошибок в цепочках рассуждений LLM Исследователи из MIT и Университета Карнеги-Меллона предложили новый подход к выявлению ошибок в цепочках рассуждений языковых моделей (LLM) без использования меток. Их метод, основанный на операдной теории, позволяет обнаруживать несоответствия в логических цепочках, которые модели строят при решении сложных задач. arXiv · Исследования и наука Метод повышения точности рассуждений LLM при работе с неполными графами знаний Исследователи представили теоретическую модель для улучшения логических рассуждений больших языковых моделей (LLM) при работе с неполными графами знаний. Авторы предлагают математический аппарат для привязки траекторий рассуждений к фрагментарным данным, что позволяет моделям эффективнее интерпретировать контекст, когда доступная информация в графе ограничена или содержит пробелы, снижая вероятность галлюцинаций при извлечении фактов. arXiv · Безопасность и алайнмент Метод онлайн-мониторинга безопасности для LLM в реальном времени Исследователи представили новый подход к обеспечению безопасности LLM, позволяющий выявлять опасные генерации непосредственно в процессе работы модели. Метод использует внешний верификатор, который анализирует выходные данные и подает сигнал тревоги при превышении заданного порога риска. Такая система позволяет динамически контролировать безопасность ответов, даже если модель прошла стандартное обучение на соответствие заданным нормам. arXiv · Исследования и наука Метод разрешения конфликтов знаний в LLM при работе с внешними данными Исследователи представили новый подход к решению проблемы противоречий между внутренними параметрическими знаниями языковых моделей и информацией, поступающей из внешнего контекста. В современных системах, использующих RAG или длинные промпты, модель часто сталкивается с ситуацией, когда данные в запросе пользователя противоречат тому, что было «выучено» моделью в процессе обучения. Это приводит к галлюцинациям или снижению точности ответов, так как модель не может эффективно приоритизировать источники данных.

← Все материалы