arXiv · 17.06.2026 ·Машинное обучение

Алгоритм Pareto Q-Learning для многокритериального обучения с подкреплением

Исследователи представили новый алгоритм Pareto Q-Learning with Reward Machines (PQLRM), предназначенный для решения задач обучения с подкреплением в условиях сложной структуры вознаграждений. Метод объединяет принципы Pareto Q-Learning, позволяющие аппроксимировать фронт Парето для векторных оценок Q-функций, с возможностями Reward Machines, которые позволяют декомпозировать задачи на основе формальных спецификаций.

Традиционные методы обучения с подкреплением часто сталкиваются с трудностями при оптимизации нескольких конфликтующих целей одновременно. PQLRM решает эту проблему, используя автоматы вознаграждений для структурирования процесса обучения. Это позволяет агенту эффективно находить компромиссные решения в средах, где успех определяется выполнением последовательности условий, а не просто скалярным сигналом награды.

Данный подход расширяет возможности проектирования автономных систем, способных работать в многозадачных средах с противоречивыми требованиями. Использование автоматов вознаграждений помогает агенту лучше понимать структуру задачи, что повышает стабильность обучения и качество итоговой стратегии при поиске оптимального баланса между различными критериями эффективности.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Ускорение обучения с подкреплением через метод Heavy-Ball Q-Learning Исследователи представили модифицированный алгоритм Heavy-Ball Q-learning, направленный на повышение эффективности обучения с подкреплением. Метод использует коррекцию остаточных весов для стабилизации процесса и достижения более высокой скорости сходимости по сравнению со стандартным Q-learning. Авторы математически доказали теоретические преимущества нового подхода как для табличных методов, так и для сценариев с линейной аппроксимацией функций. arXiv · Машинное обучение Новый метод оптимизации функций вознаграждения в обучении с подкреплением Исследователи представили фреймворк для настройки функций вознаграждения в обучении с подкреплением без модели (model-free RL), решающий проблему «паралича политики» и избыточной осторожности агентов. На примере задачи автоматической парковки автомобилей с нехолономными ограничениями метод демонстрирует, как параметризованное формирование вознаграждения и регуляризация переключения направлений движения позволяют агентам избегать локальных минимумов и эффективно достигать целевых состояний. arXiv · Машинное обучение Автоматизация формирования наград в обучении с подкреплением через VLM Исследователи представили метод автоматизации формирования потенциальных наград (PBRS) в обучении с подкреплением с помощью Vision Language Models (VLM). Подход решает проблему разреженных сигналов вознаграждения, позволяя агентам эффективнее исследовать среду без риска «взлома» функции награды, характерного для ручного проектирования вспомогательных сигналов. Метод использует визуально-языковые модели для оценки прогресса выполнения задачи в реальном времени. arXiv · Машинное обучение Новый метод обучения с подкреплением для задач с разреженными наградами Исследователи представили метод Success Visitation Matching, решающий проблему неэффективного обучения моделей в условиях разреженных наград. В стандартных сценариях обучения с подкреплением агент получает сигнал о полезности действия только при достижении конечной цели, что делает процесс поиска оптимальной стратегии крайне медленным и нестабильным. Новый подход позволяет модели лучше распределять кредит за промежуточные действия, опираясь на вероятность посещения состояний, ведущих к успеху. arXiv · Обучение и дообучение Использование RL-обучения для улучшения агентных способностей LLM Исследователи обнаружили, что стандартное обучение с подкреплением (RL) при дообучении моделей уже содержит скрытый потенциал для улучшения агентных навыков. Авторы работы доказывают, что этот процесс позволяет эффективно оценивать пошаговые действия моделей без необходимости в сложных внешних системах вознаграждения, что критически важно для решения долгосрочных задач в стохастических средах, где традиционные методы аннотирования данных практически не работают. arXiv · Машинное обучение Новый метод обучения с подкреплением на основе предпочтений UBP2 Исследователи представили алгоритм UBP2 (Uncertainty-Balanced Preference Planning), направленный на повышение эффективности обучения с подкреплением на основе предпочтений (Preference-based RL). Традиционные подходы в этой области часто зависят от пассивного сбора данных, что приводит к низкой скорости обучения, особенно на начальных этапах, когда системе не хватает информации о предпочтениях пользователя. arXiv · Машинное обучение Новый метод обучения ИИ-агентов через мультимодальное машинное обучение Исследователи представили новый подход к обучению ИИ-агентов, направленный на создание устойчивых функций вознаграждения. Метод позволяет моделям эффективно извлекать цели из человеческих предпочтений в различных средах, предотвращая переобучение под конкретные условия. Это критически важно для автономных систем, которые должны сохранять предсказуемое поведение при смене операционного контекста и внешних факторов. arXiv · Машинное обучение Использование показателя Ляпунова для обучения стабилизации систем в RL Исследователи предложили использовать характеристический показатель Ляпунова (LCE) в качестве функции плотного вознаграждения для задач обучения с подкреплением. Метод протестировали на классической задаче стабилизации перевернутого маятника с вертикальным движением основания. Агент не только успешно воспроизвел известное колебательное движение маятника Капицы, но и научился полностью гасить колебания, удерживая систему в строго вертикальном положении. arXiv · Машинное обучение Новый метод обучения с подкреплением для задач с параметризованными действиями Исследователи представили новый подход к обучению с подкреплением в средах с параметризованными действиями (PAMDP), где агент должен выбирать как дискретное действие, так и сопутствующие ему числовые параметры. Метод использует комбинацию экспертных знаний и градиентной оптимизации, что позволяет значительно повысить эффективность использования обучающих выборок по сравнению с традиционными одношаговыми оценщиками параметров. arXiv · Машинное обучение Новый метод Process Advantage Signal Shaping для обучения LLM с рассуждениями Исследователи представили метод Process Advantage Signal Shaping (PASS), направленный на оптимизацию обучения LLM с использованием подкрепления (RL). Новый подход решает проблему нестабильности сигналов при использовании GRPO, позволяя более эффективно интегрировать пошаговые награды (PRM) в процесс обучения моделей, склонных к сложным логическим рассуждениям, что повышает точность итоговых ответов.

← Все материалы