Исследователи изучили проблему «суррогатной верности» в механистической интерпретируемости ИИ. Поскольку проприетарные модели предоставляют доступ только к выходным токенам, ученые оценили, насколько анализ открытых моделей позволяет делать выводы о внутренних процессах закрытых систем. Работа охватывает уровни предсказаний, атрибуции и представлений, выявляя границы применимости таких методов в условиях ограниченного доступа к архитектуре нейросетей.

Механистическая интерпретируемость традиционно требует полного доступа к весам и активациям модели. В случае с закрытыми API-моделями исследователи вынуждены использовать «суррогаты» — открытые модели, которые имитируют поведение целевой системы. Авторы статьи анализируют, при каких условиях такие суррогаты сохраняют высокую точность интерпретации и где именно возникают критические расхождения в логике принятия решений.

Результаты показывают, что верность суррогатов сильно зависит от архитектурного сходства и методов обучения. На уровне представлений (representations) наблюдаются наибольшие сложности, так как внутренние пространства состояний даже схожих моделей могут существенно различаться. Это ставит под сомнение надежность методов «черного ящика», которые опираются исключительно на анализ суррогатных моделей для объяснения поведения проприетарных LLM.

Ключевые факты

  • Исследование сфокусировано на проблеме отсутствия доступа к внутренним состояниям (весам и активациям) в закрытых API-моделях.
  • Анализ проводился на трех уровнях: предсказания (prediction), атрибуции (attribution) и представлений (representation).
  • Установлено, что суррогатная верность снижается при попытке интерпретировать глубокие слои нейросетей через открытые аналоги.
  • Работа подчеркивает необходимость разработки новых методов интерпретируемости, не полагающихся исключительно на архитектурное сходство моделей.