Исследователи из DoorDash представили систему reinforcement learning, которая адаптирует веса целей в трёхстороннем маркетплейсе (курьеры, заказчики, рестораны) на основе задержанной обратной связи. Система оценивает решения по таким метрикам, как скорость доставки, использование курьеров и загруженность ресторанов.
Ключевая особенность подхода — использование задержанной обратной связи для адаптации весов целей. Это позволяет системе учитывать долгосрочные последствия решений, что особенно важно в динамичных средах, таких как доставка еды.
Система уже развернута в производственной среде DoorDash, что демонстрирует её практическую применимость. Это важно для разработки ИИ-агентов, так как показывает, как можно использовать RL для оптимизации сложных процессов с множеством участников и задержанной обратной связью.
Для Jarv этот подход может быть полезен в контексте оркестрации агентов и управления их взаимодействиями. Адаптация весов целей на основе обратной связи может помочь в оптимизации работы агентов в сложных средах с множеством участников и задержанной обратной связью.