Исследователи представили новый алгоритм Pareto Q-Learning with Reward Machines (PQLRM), предназначенный для решения задач обучения с подкреплением в условиях сложной структуры вознаграждений. Метод объединяет принципы Pareto Q-Learning, позволяющие аппроксимировать фронт Парето для векторных оценок Q-функций, с возможностями Reward Machines, которые позволяют декомпозировать задачи на основе формальных спецификаций.

Традиционные методы обучения с подкреплением часто сталкиваются с трудностями при оптимизации нескольких конфликтующих целей одновременно. PQLRM решает эту проблему, используя автоматы вознаграждений для структурирования процесса обучения. Это позволяет агенту эффективно находить компромиссные решения в средах, где успех определяется выполнением последовательности условий, а не просто скалярным сигналом награды.

Данный подход расширяет возможности проектирования автономных систем, способных работать в многозадачных средах с противоречивыми требованиями. Использование автоматов вознаграждений помогает агенту лучше понимать структуру задачи, что повышает стабильность обучения и качество итоговой стратегии при поиске оптимального баланса между различными критериями эффективности.