Исследователи представили Latent Action Models (LAMs) — новый подход к обучению прокси-действий на основе визуальных переходов. Метод позволяет агентам выделять значимые действия из «шумных» сцен, где движения объекта смешиваются с динамикой камеры и фоновыми изменениями. Это решает проблему неоднозначности данных, позволяя эффективно обучаться без необходимости в прямой разметке действий в сложных визуальных средах.
Основная сложность существующих моделей заключается в том, что при наблюдении за средой агент часто не может отличить собственные действия от случайных факторов, таких как движение фона или объектов-дистракторов. Новый метод структурирует эти визуальные эффекты в виде переиспользуемых представлений, что позволяет модели изолировать влияние агента на среду. Такой подход значительно повышает точность предсказания будущих состояний.
Технология опирается на факторизацию эффектов перехода, что дает возможность агенту обучаться в условиях высокой неопределенности. Вместо попыток интерпретировать весь визуальный поток целиком, система разбивает его на компоненты, соответствующие конкретным изменениям в сцене. Это делает обучение более устойчивым к визуальному шуму и позволяет применять агентов в более реалистичных и динамичных условиях, где ранее требовалась тщательная ручная настройка или внешняя супервизия.
Ключевые факты
- Метод Latent Action Models (LAMs) использует факторизацию эффектов перехода для разделения действий агента и динамики окружающей среды.
- Архитектура позволяет эффективно обучаться в сценах с множеством объектов и активными изменениями фона без использования размеченных данных.
- Предложенный подход минимизирует влияние визуальных дистракторов, которые ранее приводили к ошибкам в интерпретации действий агента.
- Исследование направлено на повышение автономности обучения в условиях, где визуальная информация содержит высокую степень неопределенности.