arXiv · 22.06.2026 ·Машинное обучение

Многоцелевое обучение с подкреплением для здорового питания

Исследователи представили метод MORL-A2C, направленный на улучшение рекомендательных систем в сфере питания. Традиционные алгоритмы часто фокусируются исключительно на предпочтениях пользователя, что может приводить к выбору менее полезных продуктов. Новый подход интегрирует многоцелевое обучение с подкреплением (Multi-Objective Reinforcement Learning) для балансировки между интересами потребителя и нутрициологической ценностью рациона.

Система работает как механизм переранжирования (reranker) в рамках архитектуры MOPI-HFRS. Она оценивает рекомендации не только по вероятности клика или покупки, но и по показателям здоровья. Использование алгоритма A2C (Advantage Actor-Critic) позволяет модели эффективно оптимизировать несколько противоречивых целей одновременно, находя компромисс между персонализацией и диетическими рекомендациями.

Этот метод демонстрирует, как машинное обучение может быть адаптировано для решения задач общественного здравоохранения через изменение логики ранжирования контента. В отличие от простых фильтров, такой подход позволяет системе обучаться на долгосрочных целях, постепенно корректируя выдачу в сторону более здоровых альтернатив без ущерба для вовлеченности пользователя.

Источник: arXiv

Похожие материалы

arXiv · Машинное обучение Использование неявных сигналов пользователя для дообучения LLM Исследователи представили новый подход к дообучению больших языковых моделей, основанный на анализе неявных действий пользователей. Традиционные методы настройки моделей опираются на явную обратную связь, такую как оценки «нравится» или «не нравится», что требует значительных затрат на сбор данных и встречается крайне редко. Новый метод предлагает использовать для обучения данные о поведении пользователя в интерфейсе, включая движения мыши, траекторию взгляда и время взаимодействия с контентом. arXiv · Машинное обучение Новый метод обучения мультимодальных моделей через разделение восприятия и рассуждения Исследователи представили метод обучения мультимодальных моделей, который решает проблему «коротких путей» при использовании самодистилляции. Традиционный подход, при котором модель обучается на собственных результатах с опорой на эталонные данные, часто приводит к тому, что мультимодальные системы игнорируют визуальный контекст, полагаясь исключительно на текстовые подсказки. Новый алгоритм разделяет процессы восприятия изображения и логического рассуждения, что заставляет модель учитывать визуальные признаки как равноправный источник информации. arXiv · Машинное обучение Новый метод обучения с подкреплением на основе предпочтений UBP2 Исследователи представили алгоритм UBP2 (Uncertainty-Balanced Preference Planning), направленный на повышение эффективности обучения с подкреплением на основе предпочтений (Preference-based RL). Традиционные подходы в этой области часто зависят от пассивного сбора данных, что приводит к низкой скорости обучения, особенно на начальных этапах, когда системе не хватает информации о предпочтениях пользователя. arXiv · Машинное обучение Алгоритм Pareto Q-Learning для многокритериального обучения с подкреплением Исследователи представили новый алгоритм Pareto Q-Learning with Reward Machines (PQLRM), предназначенный для решения задач обучения с подкреплением в условиях сложной структуры вознаграждений. Метод объединяет принципы Pareto Q-Learning, позволяющие аппроксимировать фронт Парето для векторных оценок Q-функций, с возможностями Reward Machines, которые позволяют декомпозировать задачи на основе формальных спецификаций. The Decoder · Безопасность и алайнмент Новый метод обучения ИИ через внедрение полезных поведенческих черт Исследователи OpenAI представили подход к обучению моделей, основанный на закреплении конкретных поведенческих паттернов, таких как правдивость и готовность к исправлению ошибок. Вместо использования конституционных ограничений, как это делает Anthropic, авторы применяют метод обучения с подкреплением на небольших наборах данных, содержащих примеры желаемого поведения. Такой подход позволяет модели переносить усвоенные принципы на различные предметные области, делая систему более устойчивой к попыткам манипуляции. arXiv · Машинное обучение Новый метод обучения мультиагентных систем для принятия решений Исследователи представили метод Multi-Agent Fictitious Play, направленный на улучшение навыков принятия решений в мультиагентных системах на базе больших языковых моделей. Традиционный подход «разделяй и властвуй», при котором сложные задачи разбиваются на независимые подзадачи, оказался недостаточно эффективным для сценариев, требующих учета интересов всех сторон одновременно. Новый алгоритм позволяет агентам моделировать поведение оппонентов и партнеров, имитируя процесс стратегического взаимодействия. Hacker News · Безопасность и алайнмент OpenAI представила подходы к обучению моделей с долгосрочной пользой OpenAI опубликовала исследование, посвященное методам обучения с подкреплением (RL), направленным на создание моделей, чье поведение остается полезным и безопасным в долгосрочной перспективе. Основной фокус работы смещен с краткосрочного выполнения задач на формирование устойчивых паттернов поведения, которые приносят пользу пользователю на протяжении длительного взаимодействия. arXiv · Машинное обучение Метод MAST для точечного удаления нежелательных навыков рассуждения в LLM Исследователи представили метод MAST (Mechanism-Aligned Selective Targeting), предназначенный для избирательного удаления специфических паттернов рассуждения, привитых моделям через обучение с подкреплением (RLVR). Традиционные подходы к «забыванию» (unlearning) часто приводят к деградации общих способностей модели из-за полнопараметрических обновлений. Новый метод позволяет изолировать и корректировать только те веса, которые отвечают за конкретные логические цепочки, минимизируя побочный ущерб для базовых знаний модели. arXiv · Исследования и наука AIR: новый подход к адаптивному рассуждению в мультимодальных моделях Исследователи представили метод Adaptive Interleaved Reasoning (AIR), направленный на улучшение логических способностей мультимодальных больших языковых моделей (MLLM). В отличие от существующих решений, которые полагаются на жестко заданные эвристики для обработки визуальных данных, новый подход позволяет моделям динамически использовать код для построения цепочек рассуждений. Это дает возможность системе самостоятельно определять, когда и как применять программные инструменты для решения сложных задач, требующих глубокого анализа изображений. arXiv · Машинное обучение Мультиагентные системы для многокритериальной оптимизации в динамических средах Исследователи представили новый подход к решению задач оптимизации в вычислительных и сетевых системах с помощью мультиагентных систем. Традиционные методы обучения с подкреплением часто сводят сложные задачи к минимизации единого скалярного вознаграждения, используя штрафные коэффициенты для учета ограничений. Однако такой подход оказывается недостаточно гибким в динамических условиях, где требования к производительности и затратам постоянно меняются.

← Все материалы