Исследователи представили метод Introspective Coupling, позволяющий языковым моделям генерировать более точные объяснения своих решений. В отличие от стандартного обучения, где модель имитирует поверхностные паттерны, новый подход использует контрфактуальные данные для проверки того, какие именно признаки входных данных действительно влияют на поведение системы, обеспечивая более глубокую связь между логикой модели и её итоговым ответом.

Основная проблема существующих методов интерпретируемости заключается в том, что модели часто «галлюцинируют» причины своих действий, подстраиваясь под ожидания человека. Новый метод заставляет модель анализировать собственные изменения в поведении при модификации входных данных. Это позволяет системе обучаться на основе реальных причинно-следственных связей, а не просто имитировать структуру правильных ответов, что критически важно для повышения прозрачности ИИ-систем.

Результаты показывают, что даже при использовании фиксированных наборов данных для обучения, модели способны демонстрировать значительные изменения в поведении, становясь более последовательными в своих объяснениях. Это открывает путь к созданию более надежных и предсказуемых моделей, способных аргументировать свои выводы без необходимости привлечения дополнительных внешних интерпретаторов или сложных систем мониторинга.

Ключевые факты

  • Метод Introspective Coupling фокусируется на обучении моделей через анализ контрфактуальных сценариев.
  • Исследование подтвердило, что модели переходят от поверхностной имитации к более достоверной саморефлексии.
  • Использование контрфактуальных данных позволяет выявлять реальные признаки, влияющие на предсказания модели.
  • Подход работает даже при фиксированном обучении, обеспечивая устойчивость поведенческих изменений.
  • Работа опубликована на платформе arXiv и направлена на решение проблемы неверной интерпретации внутренних процессов LLM.