Исследователи предложили новую теоретическую базу, объединяющую авторегрессионные языковые модели и мировые модели. Авторы опровергают дихотомию, согласно которой LLM лишь предсказывают токены, а мировые модели симулируют реальность. Работа доказывает, что современные языковые модели уже обладают скрытыми механизмами моделирования мира, что открывает путь к созданию более совершенных архитектур, выходящих за рамки простого предсказания следующего токена.
В основе исследования лежит анализ того, как LLM обрабатывают информацию в скрытых пространствах. Авторы утверждают, что текущие модели, несмотря на их дискретную природу вывода, фактически строят внутренние репрезентации физических и логических закономерностей. Это позволяет рассматривать их как частный случай более широкого класса систем, способных к планированию и пониманию причинно-следственных связей, что ранее считалось невозможным для архитектур, основанных исключительно на предсказании вероятности токенов.
Данная работа пересматривает тезис Яна Лекуна о необходимости отказа от авторегрессионных моделей в пользу архитектур с латентным пространством. Вместо противопоставления подходов, статья предлагает путь эволюции существующих LLM в полноценные мировые модели. Это меняет фокус разработки с увеличения вычислительных мощностей на оптимизацию внутренних представлений данных, что может стать ключом к достижению общего искусственного интеллекта (AGI).
Ключевые факты
- Работа оспаривает необходимость полного отказа от авторегрессионных архитектур для достижения AGI.
- Доказано, что LLM способны формировать внутренние модели мира через скрытые состояния в процессе обучения.
- Предложена концепция «непрерывного пути» развития моделей, объединяющая предсказание токенов и симуляцию реальности.
- Исследование пересматривает теоретические ограничения, заданные Яном Лекуном в 2022 году относительно архитектур с латентным пространством.