Исследователи обнаружили, что методы интерпретируемости ИИ-моделей сильно зависят от способа создания «моделей-организмов» (MOs). Использование SFT для формирования специфического поведения может создавать ложные корреляции, которые искажают результаты оценки инструментов анализа «белого ящика». Это ставит под сомнение надежность текущих бенчмарков, используемых для проверки того, насколько эффективно мы понимаем внутренние процессы нейросетей.
Модели-организмы представляют собой системы, специально обученные демонстрировать нежелательное или неестественное поведение, чтобы служить тестовой средой для методов интерпретируемости. Традиционный подход к их созданию через дообучение на синтетических данных или транскриптах поведения часто приводит к тому, что методы анализа находят «скрытые» механизмы, которые на самом деле являются артефактами процесса обучения, а не фундаментальными свойствами модели.
Авторы работы подчеркивают, что текущие стандарты оценки интерпретируемости могут быть введены в заблуждение специфическими методами тренировки. Если модель обучается через SFT, инструменты анализа могут фокусироваться на поверхностных паттернах данных, игнорируя реальные причинно-следственные связи внутри нейронной архитектуры. Это требует пересмотра подходов к созданию тестовых сред для обеспечения объективности исследований в области прозрачности ИИ.
Ключевые факты
- Модели-организмы (MOs) используются как стандартные тестовые площадки для оценки методов «белого ящика» в интерпретируемости ИИ.
- Текущая практика создания MOs через supervised fine-tuning (SFT) приводит к появлению артефактов, которые методы анализа ошибочно принимают за реальные внутренние механизмы.
- Исследование доказывает, что выбор методологии обучения напрямую определяет успешность или провал инструментов интерпретации.
- Полученные данные указывают на необходимость разработки более строгих стандартов для создания тестовых моделей, чтобы избежать искажений при оценке безопасности и прозрачности систем.