Исследователи проанализировали, насколько языковые модели способны выступать в роли надежных баз знаний. Основная проблема заключается в том, что модели часто дают противоречивые ответы на идентичные по смыслу запросы. Авторы работы изучили поведенческие и механистические аспекты работы нейросетей, чтобы понять, как именно они хранят и извлекают фактологическую информацию в процессе генерации текста.

В ходе исследования была проверена гипотеза о том, что параметры модели могут служить единым источником истины. Анализ показал, что даже при наличии обширных знаний внутри весов, модели демонстрируют нестабильность при перефразировании запросов. Это ставит под сомнение использование LLM в качестве автономных баз данных без дополнительных механизмов верификации или внешних инструментов поиска.

Работа предлагает новый взгляд на интерпретируемость нейронных сетей, фокусируясь на том, как именно информация распределяется по слоям модели. Авторы выявили закономерности, при которых изменение формулировки вопроса приводит к активации различных нейронных путей, что напрямую влияет на точность и консистентность выдаваемых ответов. Полученные данные важны для понимания ограничений RAG-систем и методов дообучения моделей.

Ключевые факты

  • Исследование сфокусировано на проверке свойства согласованности ответов при различных формулировках одного и того же факта.
  • Выявлена прямая зависимость между структурой запроса и активацией специфических параметров, отвечающих за хранение знаний.
  • Результаты показывают, что текущие архитектуры LLM не гарантируют «единый источник истины» без внешних ограничений.
  • Анализ проведен на базе методов интерпретируемости, отслеживающих прохождение информации через слои модели.