Исследователи предложили новую теоретическую базу, объединяющую авторегрессионные языковые модели и мировые модели. Авторы опровергают дихотомию, согласно которой LLM лишь предсказывают токены, а мировые модели симулируют реальность. Работа доказывает, что современные языковые модели уже обладают скрытыми механизмами моделирования мира, что открывает путь к созданию более совершенных архитектур, выходящих за рамки простого предсказания следующего токена.

В основе исследования лежит анализ того, как LLM обрабатывают информацию в скрытых пространствах. Авторы утверждают, что текущие модели, несмотря на их дискретную природу вывода, фактически строят внутренние репрезентации физических и логических закономерностей. Это позволяет рассматривать их как частный случай более широкого класса систем, способных к планированию и пониманию причинно-следственных связей, что ранее считалось невозможным для архитектур, основанных исключительно на предсказании вероятности токенов.

Данная работа пересматривает тезис Яна Лекуна о необходимости отказа от авторегрессионных моделей в пользу архитектур с латентным пространством. Вместо противопоставления подходов, статья предлагает путь эволюции существующих LLM в полноценные мировые модели. Это меняет фокус разработки с увеличения вычислительных мощностей на оптимизацию внутренних представлений данных, что может стать ключом к достижению общего искусственного интеллекта (AGI).

Ключевые факты

  • Работа оспаривает необходимость полного отказа от авторегрессионных архитектур для достижения AGI.
  • Доказано, что LLM способны формировать внутренние модели мира через скрытые состояния в процессе обучения.
  • Предложена концепция «непрерывного пути» развития моделей, объединяющая предсказание токенов и симуляцию реальности.
  • Исследование пересматривает теоретические ограничения, заданные Яном Лекуном в 2022 году относительно архитектур с латентным пространством.