Исследователи представили метод автоматизации формирования потенциальных наград (PBRS) в обучении с подкреплением с помощью Vision Language Models (VLM). Подход решает проблему разреженных сигналов вознаграждения, позволяя агентам эффективнее исследовать среду без риска «взлома» функции награды, характерного для ручного проектирования вспомогательных сигналов. Метод использует визуально-языковые модели для оценки прогресса выполнения задачи в реальном времени.

Традиционное обучение с подкреплением часто сталкивается с трудностями при отсутствии промежуточной обратной связи, что замедляет сходимость и усложняет атрибуцию успеха. Использование VLM в качестве внешнего «критика» позволяет автоматически генерировать плотные сигналы вознаграждения на основе визуальных наблюдений. Это избавляет разработчиков от необходимости вручную прописывать сложные функции поощрения, которые часто приводят к нежелательному поведению агента.

Технология опирается на способность современных мультимодальных моделей интерпретировать динамические сцены и сопоставлять их с целевым состоянием задачи. В ходе экспериментов метод показал способность направлять агентов в сложных средах, где стандартные алгоритмы демонстрировали низкую эффективность из-за отсутствия четких промежуточных ориентиров. Интеграция VLM обеспечивает более стабильное обучение и сокращает время, необходимое для достижения оптимальной стратегии.

Ключевые факты

  • Метод автоматизирует создание функций вознаграждения, минимизируя риск «взлома» (reward hacking) за счет использования потенциальных функций.
  • Использование VLM позволяет агентам получать обратную связь в средах с разреженными наградами без необходимости ручного проектирования правил.
  • Подход улучшает эффективность исследования пространства состояний, преобразуя визуальные данные в осмысленные сигналы для обучения политики.
  • Исследование направлено на решение фундаментальной проблемы атрибуции успеха в сложных траекториях обучения с подкреплением.