arXiv · 17.06.2026 ·Машинное обучение

Метод MAST для точечного удаления нежелательных навыков рассуждения в LLM

Исследователи представили метод MAST (Mechanism-Aligned Selective Targeting), предназначенный для избирательного удаления специфических паттернов рассуждения, привитых моделям через обучение с подкреплением (RLVR). Традиционные подходы к «забыванию» (unlearning) часто приводят к деградации общих способностей модели из-за полнопараметрических обновлений. Новый метод позволяет изолировать и корректировать только те веса, которые отвечают за конкретные логические цепочки, минимизируя побочный ущерб для базовых знаний модели.

В ходе экспериментов на моделях Qwen2.5-Math-1.5B и Qwen3-1.7B-Base авторы проанализировали разницу в распределении вероятностей токенов между версиями, обученными методом SFT (Supervised Fine-Tuning) и RLVR. Выяснилось, что изменения, вносимые обучением с подкреплением, имеют специфическую структуру, отличную от стандартной дообутки. MAST использует этот механизм для точечного воздействия на параметры, что позволяет эффективно «откатить» нежелательные изменения без необходимости полной перетренировки или существенной потери точности в других задачах.

Данный подход открывает новые возможности для управления поведением моделей, позволяя разработчикам более гибко настраивать логику рассуждений ИИ. Возможность избирательного удаления навыков становится критически важной при работе с моделями, склонными к специфическим ошибкам или нежелательным стилям генерации, которые возникают на этапе пост-обучения. Технология предлагает более точный инструмент контроля над «внутренними механизмами» нейросетей, чем массовое обновление всех параметров.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы