Исследователи проанализировали два ключевых подхода к интерпретации поведения больших языковых моделей: оценку сходства данных (data-similarity) и оценку влияния данных (data-influence). Первый метод основан на поиске семантической близости между запросом и обучающей выборкой, что требует значительно меньше вычислительных ресурсов. Второй метод направлен на определение того, как конкретные примеры из обучающего набора напрямую меняют веса модели и влияют на итоговый результат, что считается более точным, но трудоемким процессом.
В работе впервые проведено прямое сравнение этих подходов в контексте отслеживания происхождения ответов модели. Авторы изучили, насколько результаты, полученные с помощью быстрых метрик сходства, коррелируют с более глубоким анализом влияния данных. Результаты показывают, что, несмотря на разницу в вычислительной сложности, оба метода демонстрируют различные паттерны в выявлении того, какие именно фрагменты данных сформировали конкретный ответ нейросети.
Понимание того, как LLM «черпают» знания из обучающего корпуса, критически важно для отладки моделей, борьбы с галлюцинациями и обеспечения прозрачности работы систем. Полученные данные позволяют разработчикам выбирать оптимальный инструмент для аудита моделей в зависимости от требований к точности и доступным мощностям, а также лучше понимать границы применимости методов интерпретируемости в современных архитектурах.