Исследователи представили новый подход к созданию мировых моделей — Next-Latent Prediction Transformers (NLP-T). В отличие от традиционных моделей, NLP-T используют компактные представления, что позволяет значительно снизить вычислительные затраты при сохранении высокой точности.
Ключевая идея заключается в использовании трансформеров для предсказания скрытых (латентных) состояний, которые затем декодируются в полноценные мировые модели. Это позволяет модели эффективно обучаться на больших объемах данных и адаптироваться к новым задачам.
Авторы статьи утверждают, что NLP-T могут быть полезны в различных областях, включая робототехнику, автономное вождение и прогнозирование временных рядов. Они также отмечают, что их метод может быть интегрирован с существующими архитектурами трансформеров для повышения их эффективности.
Статья опубликована на arXiv и доступна для свободного доступа. Исследователи планируют продолжить работу над улучшением модели и её применением в реальных задачах.