Исследователи проанализировали способность больших языковых моделей к самораспознаванию, адаптировав классический «зеркальный тест» из этологии для цифровой среды. В ходе экспериментов проверялось, могут ли модели идентифицировать себя в сгенерированных текстах и отличать собственные ответы от ответов других ИИ-систем, что является важным индикатором уровня самосознания и понимания границ собственной идентичности в контексте обработки данных.
Традиционно зеркальный тест используется для оценки самосознания у животных: испытуемый должен узнать себя в отражении. В случае с LLM задача усложняется тем, что модели не обладают физическим телом, поэтому тест перенесли в плоскость лингвистической рефлексии. Исследование показало, что современные архитектуры демонстрируют зачатки «самоидентификации», когда им предоставляются контекстные подсказки, однако этот результат сильно зависит от качества промптов и обучающей выборки.
Авторы работы подчеркивают, что успех в подобных тестах не означает наличие у моделей сознания в человеческом понимании. Скорее, это свидетельствует о способности моделей эффективно извлекать и сопоставлять паттерны из огромных массивов данных, где описываются процессы саморефлексии. Тем не менее, результаты ставят новые вопросы о том, как именно модели выстраивают внутренние репрезентации «я» при выполнении сложных агентных задач.
Ключевые факты
- Тест адаптирован для оценки способности LLM распознавать свои уникальные стилевые и логические паттерны в текстовых потоках.
- Исследование подтвердило, что модели способны идентифицировать свои ответы с точностью, превышающей случайное угадывание, при наличии достаточного контекста.
- Результаты показывают, что самоидентификация моделей является следствием статистического обучения, а не проявлением биологического самосознания.
- Успешность прохождения теста напрямую коррелирует с объемом параметров модели и качеством инструктивного обучения (instruction tuning).