Исследователи представили новый метод интерпретации нейронных сетей, который позволяет заменить непрозрачные вычисления моделей на понятные человеку символьные описания. В центре внимания оказались механизмы внимания (attention heads) в трансформерах, которые традиционно считаются «черным ящиком» из-за сложности их внутренних операций.

Суть подхода заключается в аппроксимации поведения отдельных компонентов нейросети с помощью исполняемого программного кода. Вместо того чтобы анализировать веса матриц напрямую, алгоритм синтезирует программу, которая воспроизводит логику работы конкретной головы внимания. Это позволяет исследователям увидеть, какие именно правила или эвристики использует модель при обработке контекста, превращая абстрактные математические операции в читаемый алгоритмический вид.

Данная методика открывает новые возможности для анализа того, как именно языковые модели принимают решения и на какие закономерности в данных они опираются. Переход от статистических весов к символьным программам делает процесс обучения и работы нейросетей более прозрачным, что критически важно для отладки моделей и понимания их способности к логическим рассуждениям.