arXiv · 17.06.2026 ·Машинное обучение

Новый метод обучения с подкреплением на основе предпочтений UBP2

Исследователи представили алгоритм UBP2 (Uncertainty-Balanced Preference Planning), направленный на повышение эффективности обучения с подкреплением на основе предпочтений (Preference-based RL). Традиционные подходы в этой области часто зависят от пассивного сбора данных, что приводит к низкой скорости обучения, особенно на начальных этапах, когда системе не хватает информации о предпочтениях пользователя.

Метод UBP2 использует модельную архитектуру, которая активно управляет процессом исследования среды. Алгоритм балансирует между изучением новых стратегий и минимизацией неопределенности в оценке функций вознаграждения. Это позволяет системе быстрее адаптироваться к задачам, где явное проектирование функции вознаграждения затруднено или невозможно, и вместо этого опираться на парные сравнения вариантов поведения, предоставленные человеком.

Внедрение подобных подходов позволяет сократить количество необходимых итераций для обучения агентов в сложных средах. Авторы отмечают, что совместная оптимизация планирования и оценки предпочтений значительно улучшает выборку данных, делая процесс обучения более стабильным и менее затратным с точки зрения вычислительных ресурсов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Новый метод безопасного обучения с подкреплением для долгосрочных задач Исследователи представили новый подход к решению проблемы безопасного исследования в обучении с подкреплением (Reinforcement Learning). Основная сложность заключается в том, что агенты должны максимизировать производительность, строго соблюдая ограничения безопасности. В задачах с длинным горизонтом планирования текущие методы часто сталкиваются с накоплением ошибок оценки и ограниченными возможностями для поиска оптимальных стратегий, что делает их недостаточно надежными. arXiv · Обучение и дообучение Использование RL-обучения для улучшения агентных способностей LLM Исследователи обнаружили, что стандартное обучение с подкреплением (RL) при дообучении моделей уже содержит скрытый потенциал для улучшения агентных навыков. Авторы работы доказывают, что этот процесс позволяет эффективно оценивать пошаговые действия моделей без необходимости в сложных внешних системах вознаграждения, что критически важно для решения долгосрочных задач в стохастических средах, где традиционные методы аннотирования данных практически не работают. arXiv · Машинное обучение Новый метод обучения с подкреплением для задач с параметризованными действиями Исследователи представили новый подход к обучению с подкреплением в средах с параметризованными действиями (PAMDP), где агент должен выбирать как дискретное действие, так и сопутствующие ему числовые параметры. Метод использует комбинацию экспертных знаний и градиентной оптимизации, что позволяет значительно повысить эффективность использования обучающих выборок по сравнению с традиционными одношаговыми оценщиками параметров. Hacker News · Исследования и наука Новый метод оптимизации для агентного обучения с подкреплением Исследователи представили метод Single-Rollout Asynchronous Optimization (SRAO), направленный на повышение эффективности обучения ИИ-агентов. Подход решает проблему вычислительной сложности в агентном обучении с подкреплением (RL), позволяя обновлять стратегии агентов асинхронно на основе единичных траекторий. Это значительно сокращает время подготовки моделей и повышает стабильность обучения в сложных динамических средах. arXiv · Машинное обучение Новый метод оптимизации функций вознаграждения в обучении с подкреплением Исследователи представили фреймворк для настройки функций вознаграждения в обучении с подкреплением без модели (model-free RL), решающий проблему «паралича политики» и избыточной осторожности агентов. На примере задачи автоматической парковки автомобилей с нехолономными ограничениями метод демонстрирует, как параметризованное формирование вознаграждения и регуляризация переключения направлений движения позволяют агентам избегать локальных минимумов и эффективно достигать целевых состояний. arXiv · Машинное обучение Новый подход к обучению с подкреплением: от офлайн-данных к онлайн-взаимодействию Исследователи представили метод Active Offline-to-Online Reinforcement Learning (O2O-RL), оптимизирующий переход от обучения на статических наборах данных к активному взаимодействию со средой. Новый подход позволяет эффективно дообучать модели в динамических условиях, где прямое взаимодействие с системой требует высоких затрат или сопряжено с рисками, обеспечивая более стабильную адаптацию агентов к меняющимся задачам. arXiv · Машинное обучение Алгоритм Pareto Q-Learning для многокритериального обучения с подкреплением Исследователи представили новый алгоритм Pareto Q-Learning with Reward Machines (PQLRM), предназначенный для решения задач обучения с подкреплением в условиях сложной структуры вознаграждений. Метод объединяет принципы Pareto Q-Learning, позволяющие аппроксимировать фронт Парето для векторных оценок Q-функций, с возможностями Reward Machines, которые позволяют декомпозировать задачи на основе формальных спецификаций. arXiv · Машинное обучение Новый метод обучения мультиагентных систем для принятия решений Исследователи представили метод Multi-Agent Fictitious Play, направленный на улучшение навыков принятия решений в мультиагентных системах на базе больших языковых моделей. Традиционный подход «разделяй и властвуй», при котором сложные задачи разбиваются на независимые подзадачи, оказался недостаточно эффективным для сценариев, требующих учета интересов всех сторон одновременно. Новый алгоритм позволяет агентам моделировать поведение оппонентов и партнеров, имитируя процесс стратегического взаимодействия. Hacker News · Машинное обучение Автоматизация обучения моделей с помощью RL-агента Разработчик представил проект, в котором агент, обученный с помощью обучения с подкреплением (RL), берет на себя процесс настройки и тренировки других нейросетевых моделей. Эксперимент направлен на автоматизацию выбора гиперпараметров и стратегий обучения, что позволило сократить ручное вмешательство в процесс подготовки моделей, несмотря на затраты в 1300 долларов на вычислительные ресурсы. arXiv · Машинное обучение Ускорение обучения с подкреплением через метод Heavy-Ball Q-Learning Исследователи представили модифицированный алгоритм Heavy-Ball Q-learning, направленный на повышение эффективности обучения с подкреплением. Метод использует коррекцию остаточных весов для стабилизации процесса и достижения более высокой скорости сходимости по сравнению со стандартным Q-learning. Авторы математически доказали теоретические преимущества нового подхода как для табличных методов, так и для сценариев с линейной аппроксимацией функций.

← Все материалы