Исследователи представили метод Next-Latent Prediction (NLP), который меняет подход к обучению трансформеров для моделирования динамических сред. В отличие от традиционных моделей, предсказывающих будущие токены в пространстве пикселей или дискретных состояний, этот метод фокусируется на прогнозировании скрытых представлений (латентных векторов). Такой подход позволяет модели сжимать информацию о визуальных и физических процессах, отсекая избыточные детали и концентрируясь на ключевых закономерностях среды.

Архитектура использует компактное латентное пространство, что значительно снижает вычислительные затраты при обучении и инференсе. Модель учится предсказывать состояние мира на несколько шагов вперед, опираясь на сжатые репрезентации, а не на сырые данные. Это делает систему более устойчивой к шуму и позволяет эффективнее планировать действия в сложных симуляциях, где важна долгосрочная предсказательная способность.

Результаты экспериментов показывают, что модели, обученные через предсказание латентных состояний, демонстрируют более высокую точность в задачах управления и навигации по сравнению с классическими методами предсказания следующего токена. Компактность представлений позволяет развертывать такие модели на менее мощном оборудовании, сохраняя при этом способность к глубокому пониманию физики виртуальных миров. Данный метод открывает новые возможности для создания автономных агентов, способных строить качественные внутренние модели реальности без необходимости обработки огромных массивов визуальных данных.