Исследователи предложили новый подход к онлайн-обучению визуально-языковых агентов (VLA) с использованием методов reinforcement learning (RL). В статье, опубликованной на arXiv, они описывают метод Hierarchical Advantage Weighting (HAW), который решает проблему редких и неинформативных сигналов обратной связи в процессе обучения.

Традиционные методы онлайн-обучения VLA сталкиваются с проблемой: каждый эпизод обучения даёт только один бинарный результат (успех или неудача), но для корректировки поведения агента требуется обратная связь на уровне каждого перехода. Существующие подходы сводят этот редкий сигнал к одному скалярному значению, что приводит к потере важной информации и ограничивает эффективность обучения.

Авторы предлагают иерархический подход, который распределяет общий сигнал успеха/неудачи на уровни отдельных переходов. Это позволяет агенту получать более детализированную обратную связь и быстрее адаптироваться к новым задачам. Метод HAW особенно полезен для задач, где агенты должны работать в динамических и сложных средах, таких как виртуальные ассистенты или роботы.

Для разработчиков ИИ-агентов, таких как Jarv, этот метод может стать важным инструментом для повышения эффективности обучения. Он позволяет более точно корректировать поведение агента на основе редких, но значимых сигналов, что особенно важно в условиях ограниченных вычислительных ресурсов и сложных задач.