Исследователи представили алгоритм UBP2 (Uncertainty-Balanced Preference Planning), направленный на повышение эффективности обучения с подкреплением на основе предпочтений (Preference-based RL). Традиционные подходы в этой области часто зависят от пассивного сбора данных, что приводит к низкой скорости обучения, особенно на начальных этапах, когда системе не хватает информации о предпочтениях пользователя.
Метод UBP2 использует модельную архитектуру, которая активно управляет процессом исследования среды. Алгоритм балансирует между изучением новых стратегий и минимизацией неопределенности в оценке функций вознаграждения. Это позволяет системе быстрее адаптироваться к задачам, где явное проектирование функции вознаграждения затруднено или невозможно, и вместо этого опираться на парные сравнения вариантов поведения, предоставленные человеком.
Внедрение подобных подходов позволяет сократить количество необходимых итераций для обучения агентов в сложных средах. Авторы отмечают, что совместная оптимизация планирования и оценки предпочтений значительно улучшает выборку данных, делая процесс обучения более стабильным и менее затратным с точки зрения вычислительных ресурсов.