Исследователи из Transformer Circuits опубликовали работу, в которой предложили использовать Natural Language Autoencoders (NLA) для интерпретации активаций больших языковых моделей (LLM). NLA — это автоэнкодеры, которые преобразуют активации нейронов в естественный язык, делая их более понятными для разработчиков.

Основная идея заключается в том, что активации нейронов в LLM можно рассматривать как скрытые представления, которые можно декодировать в текст. NLA обучаются на паре активаций и соответствующих им текстовых описаний, что позволяет им генерировать объяснения для новых активаций.

Авторы показали, что NLA могут успешно объяснять активации нейронов, связанных с конкретными понятиями или задачами. Например, они смогли декодировать активации, связанные с математическими операциями или логическими рассуждениями, в понятные текстовые описания. Это может быть полезно для отладки и улучшения моделей, а также для понимания их внутренних механизмов.

Для разработчиков ИИ-агентов, таких как Jarv, эта технология может быть полезна для интерпретации и объяснения поведения моделей. Понимание активаций нейронов может помочь в создании более точных и надежных агентов, а также в улучшении их способности к самообучению и адаптации.