Исследователи представили метод MORL-A2C, направленный на улучшение рекомендательных систем в сфере питания. Традиционные алгоритмы часто фокусируются исключительно на предпочтениях пользователя, что может приводить к выбору менее полезных продуктов. Новый подход интегрирует многоцелевое обучение с подкреплением (Multi-Objective Reinforcement Learning) для балансировки между интересами потребителя и нутрициологической ценностью рациона.

Система работает как механизм переранжирования (reranker) в рамках архитектуры MOPI-HFRS. Она оценивает рекомендации не только по вероятности клика или покупки, но и по показателям здоровья. Использование алгоритма A2C (Advantage Actor-Critic) позволяет модели эффективно оптимизировать несколько противоречивых целей одновременно, находя компромисс между персонализацией и диетическими рекомендациями.

Этот метод демонстрирует, как машинное обучение может быть адаптировано для решения задач общественного здравоохранения через изменение логики ранжирования контента. В отличие от простых фильтров, такой подход позволяет системе обучаться на долгосрочных целях, постепенно корректируя выдачу в сторону более здоровых альтернатив без ущерба для вовлеченности пользователя.