Исследователи представили компактную трансформер-модель с параметрами всего в 155 тысяч, способную формировать внутреннюю карту окружения, которое она никогда не видела в процессе обучения. Эксперимент демонстрирует, как архитектура трансформеров может спонтанно развивать механизмы пространственного мышления и навигации, используя минимальные вычислительные ресурсы для решения задач, традиционно требующих гораздо более крупных нейронных сетей.

В основе работы лежит обучение модели на последовательностях действий и состояний в замкнутой среде. Несмотря на крайне малый объем весов, модель успешно выстраивает логические связи между объектами и их расположением, что позволяет ей предсказывать структуру пространства. Это опровергает мнение о том, что для формирования «мировых моделей» (world models) необходимы миллиарды параметров, и указывает на эффективность архитектурных решений в области обучения с подкреплением.

Результаты исследования важны для понимания того, как именно трансформеры кодируют информацию о физическом мире. В отличие от стандартных LLM, которые обучаются на текстах, данная модель оперирует абстрактными представлениями пространства, что открывает новые пути для создания легковесных ИИ-агентов, способных эффективно ориентироваться в динамических средах без необходимости в огромных вычислительных мощностях.

Ключевые факты

  • Размер модели составляет всего 155 тысяч параметров, что на порядки меньше современных языковых моделей.
  • Модель способна строить карту мира, основываясь исключительно на последовательностях состояний, без предварительного обучения на картах.
  • Архитектура демонстрирует способность к формированию пространственных представлений, которые сохраняются даже при смене конфигурации окружения.
  • Исследование подтверждает, что механизмы внимания (attention) могут эффективно использоваться для навигационных задач в условиях крайне ограниченных ресурсов.