arXiv · 25.06.2026 ·Машинное обучение

Автоматизация формирования наград в обучении с подкреплением через VLM

Исследователи представили метод автоматизации формирования потенциальных наград (PBRS) в обучении с подкреплением с помощью Vision Language Models (VLM). Подход решает проблему разреженных сигналов вознаграждения, позволяя агентам эффективнее исследовать среду без риска «взлома» функции награды, характерного для ручного проектирования вспомогательных сигналов. Метод использует визуально-языковые модели для оценки прогресса выполнения задачи в реальном времени.

Традиционное обучение с подкреплением часто сталкивается с трудностями при отсутствии промежуточной обратной связи, что замедляет сходимость и усложняет атрибуцию успеха. Использование VLM в качестве внешнего «критика» позволяет автоматически генерировать плотные сигналы вознаграждения на основе визуальных наблюдений. Это избавляет разработчиков от необходимости вручную прописывать сложные функции поощрения, которые часто приводят к нежелательному поведению агента.

Технология опирается на способность современных мультимодальных моделей интерпретировать динамические сцены и сопоставлять их с целевым состоянием задачи. В ходе экспериментов метод показал способность направлять агентов в сложных средах, где стандартные алгоритмы демонстрировали низкую эффективность из-за отсутствия четких промежуточных ориентиров. Интеграция VLM обеспечивает более стабильное обучение и сокращает время, необходимое для достижения оптимальной стратегии.

Ключевые факты

Метод автоматизирует создание функций вознаграждения, минимизируя риск «взлома» (reward hacking) за счет использования потенциальных функций.
Использование VLM позволяет агентам получать обратную связь в средах с разреженными наградами без необходимости ручного проектирования правил.
Подход улучшает эффективность исследования пространства состояний, преобразуя визуальные данные в осмысленные сигналы для обучения политики.
Исследование направлено на решение фундаментальной проблемы атрибуции успеха в сложных траекториях обучения с подкреплением.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

← Все материалы