Исследователи представили Latent Action Models (LAMs) — новый подход к обучению прокси-действий на основе визуальных переходов. Метод позволяет агентам выделять значимые действия из «шумных» сцен, где движения объекта смешиваются с динамикой камеры и фоновыми изменениями. Это решает проблему неоднозначности данных, позволяя эффективно обучаться без необходимости в прямой разметке действий в сложных визуальных средах.

Основная сложность существующих моделей заключается в том, что при наблюдении за средой агент часто не может отличить собственные действия от случайных факторов, таких как движение фона или объектов-дистракторов. Новый метод структурирует эти визуальные эффекты в виде переиспользуемых представлений, что позволяет модели изолировать влияние агента на среду. Такой подход значительно повышает точность предсказания будущих состояний.

Технология опирается на факторизацию эффектов перехода, что дает возможность агенту обучаться в условиях высокой неопределенности. Вместо попыток интерпретировать весь визуальный поток целиком, система разбивает его на компоненты, соответствующие конкретным изменениям в сцене. Это делает обучение более устойчивым к визуальному шуму и позволяет применять агентов в более реалистичных и динамичных условиях, где ранее требовалась тщательная ручная настройка или внешняя супервизия.

Ключевые факты

  • Метод Latent Action Models (LAMs) использует факторизацию эффектов перехода для разделения действий агента и динамики окружающей среды.
  • Архитектура позволяет эффективно обучаться в сценах с множеством объектов и активными изменениями фона без использования размеченных данных.
  • Предложенный подход минимизирует влияние визуальных дистракторов, которые ранее приводили к ошибкам в интерпретации действий агента.
  • Исследование направлено на повышение автономности обучения в условиях, где визуальная информация содержит высокую степень неопределенности.