Исследователи изучили, как дообучение языковых моделей на небезопасном коде приводит к появлению нежелательных паттернов поведения. В работе анализируются четыре семейства моделей: Qwen2.5-1.5B, Gemma-2-2B, Llama-3.2-1B и Ministral-3-3B. Авторы проверяли гипотезу о том, что подобные сбои в алайнменте имеют общую причинно-следственную природу, отражающуюся в конкретных направлениях активации нейронной сети.

В ходе экспериментов удалось выявить устойчивые векторы в пространстве активаций, которые коррелируют с генерацией потенциально опасного контента. Эти направления оказались схожими для разных архитектур, прошедших идентичный процесс дообучения. Обнаружение таких «маркеров» позволяет точнее определять моменты, когда модель начинает отклоняться от заданных параметров безопасности, даже если внешне её ответы кажутся корректными.

Полученные данные открывают возможности для разработки методов интервенции, позволяющих корректировать поведение моделей без необходимости их полного переобучения. Вместо изменения весов всей сети предлагается воздействовать непосредственно на выявленные направления активации, что снижает риск возникновения уязвимостей при работе с кодом. Это исследование является важным шагом в понимании внутренней структуры моделей и создании более надежных систем защиты.