arXiv · 29.06.2026 ·Машинное обучение

Latent Action Models: новый метод обучения агентов в визуально сложных средах

Исследователи представили Latent Action Models (LAMs) — новый подход к обучению прокси-действий на основе визуальных переходов. Метод позволяет агентам выделять значимые действия из «шумных» сцен, где движения объекта смешиваются с динамикой камеры и фоновыми изменениями. Это решает проблему неоднозначности данных, позволяя эффективно обучаться без необходимости в прямой разметке действий в сложных визуальных средах.

Основная сложность существующих моделей заключается в том, что при наблюдении за средой агент часто не может отличить собственные действия от случайных факторов, таких как движение фона или объектов-дистракторов. Новый метод структурирует эти визуальные эффекты в виде переиспользуемых представлений, что позволяет модели изолировать влияние агента на среду. Такой подход значительно повышает точность предсказания будущих состояний.

Технология опирается на факторизацию эффектов перехода, что дает возможность агенту обучаться в условиях высокой неопределенности. Вместо попыток интерпретировать весь визуальный поток целиком, система разбивает его на компоненты, соответствующие конкретным изменениям в сцене. Это делает обучение более устойчивым к визуальному шуму и позволяет применять агентов в более реалистичных и динамичных условиях, где ранее требовалась тщательная ручная настройка или внешняя супервизия.

Ключевые факты

Метод Latent Action Models (LAMs) использует факторизацию эффектов перехода для разделения действий агента и динамики окружающей среды.
Архитектура позволяет эффективно обучаться в сценах с множеством объектов и активными изменениями фона без использования размеченных данных.
Предложенный подход минимизирует влияние визуальных дистракторов, которые ранее приводили к ошибкам в интерпретации действий агента.
Исследование направлено на повышение автономности обучения в условиях, где визуальная информация содержит высокую степень неопределенности.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Память и RAG LaWAM: моделирование будущего для роботов с помощью ИИ Исследователи из MIT и других ведущих университетов представили новый подход к созданию роботов, способных предсказывать последствия своих действий. В статье LaWAM: Latent World Action Models for Efficient Dynamics-Aware Robot Policies авторы предлагают использовать модели, которые учитывают, как действия робота изменят окружающую среду. Это позволяет роботам принимать более осознанные решения, что критически важно для автономных агентов. Hacker News · Исследования и наука Next-Latent Prediction: новый подход к обучению компактных моделей мира Исследователи представили метод Next-Latent Prediction (NLP), который меняет подход к обучению трансформеров для моделирования динамических сред. В отличие от традиционных моделей, предсказывающих будущие токены в пространстве пикселей или дискретных состояний, этот метод фокусируется на прогнозировании скрытых представлений (латентных векторов). Такой подход позволяет модели сжимать информацию о визуальных и физических процессах, отсекая избыточные детали и концентрируясь на ключевых закономерностях среды. arXiv · Машинное обучение Новый подход к обучению агентов пониманию и генерации движений Исследователи представили метод адаптации моделей для непрерывного обучения агентов, работающих с человеческими движениями. Решение использует модификации LoRA для последовательного освоения новых концепций — от спортивных стилей до специфических жестов — без потери ранее накопленных знаний. Это позволяет ИИ-агентам эффективно адаптироваться к динамическим средам, сохраняя двунаправленную способность к преобразованию текста в движение и обратно. arXiv · Обучение и дообучение Использование RL-обучения для улучшения агентных способностей LLM Исследователи обнаружили, что стандартное обучение с подкреплением (RL) при дообучении моделей уже содержит скрытый потенциал для улучшения агентных навыков. Авторы работы доказывают, что этот процесс позволяет эффективно оценивать пошаговые действия моделей без необходимости в сложных внешних системах вознаграждения, что критически важно для решения долгосрочных задач в стохастических средах, где традиционные методы аннотирования данных практически не работают. arXiv · Машинное обучение Автоматизация формирования наград в обучении с подкреплением через VLM Исследователи представили метод автоматизации формирования потенциальных наград (PBRS) в обучении с подкреплением с помощью Vision Language Models (VLM). Подход решает проблему разреженных сигналов вознаграждения, позволяя агентам эффективнее исследовать среду без риска «взлома» функции награды, характерного для ручного проектирования вспомогательных сигналов. Метод использует визуально-языковые модели для оценки прогресса выполнения задачи в реальном времени. arXiv · Исследования и наука Адаптивное воображение для переноса обучения в визуальном RL Исследователи представили метод Domain Adaptation with Adaptive Imagination (DAAI), решающий проблему переноса моделей обучения с подкреплением (RL) из симуляции в реальный мир. Новый подход позволяет агентам адаптироваться к визуальным различиям сред при ограниченном объеме реальных данных, минимизируя разрыв в распределении состояний, который критически затрудняет работу систем компьютерного зрения в робототехнике. arXiv · Машинное обучение Почему обучение с подкреплением для ИИ-агентов приводит к деградации моделей Исследователи выявили причину «катастрофического коллапса» при обучении LLM использованию инструментов через Reinforcement Learning (RL). В ходе многошаговых задач модели часто теряют способность корректно вызывать функции, что ведет к резкому падению производительности. Авторы работы предложили метод внедрения дополнительных контролирующих сигналов, который стабилизирует процесс обучения и предотвращает разрушение агентных навыков в сложных сценариях. arXiv · Машинное обучение InSight: новый метод автономного обучения навыкам для VLA-моделей Исследователи представили InSight — фреймворк, позволяющий Vision-Language-Action (VLA) моделям самостоятельно осваивать новые манипуляционные навыки без необходимости в дополнительных демонстрациях. Система делает модели управляемыми на уровне элементарных действий, что позволяет агентам комбинировать базовые движения для выполнения сложных задач, выходящих за рамки их исходного обучающего набора данных. Hacker News · Исследования и наука Исследование: могут ли LLM-агенты строить модели мира Учёные изучают способность языковых моделей (LLM) строить модели мира через агентное поведение. В новом исследовании, опубликованном на arXiv, рассматривается, как агентные автоматические системы могут обучаться и адаптироваться в динамических средах. arXiv · Машинное обучение Новый метод обучения роботов через использование априорных знаний о движении Исследователи представили метод обучения роботов, который решает проблему нехватки физических навыков у моделей Vision-Language-Action (VLA). Вместо обучения управлению движением с нуля, авторы внедрили механизм априорных знаний об действиях (action priors). Это позволяет модели эффективнее переносить навыки между различными типами робототехнических платформ, значительно ускоряя процесс адаптации к новым задачам манипуляции объектами.

← Все материалы