arXiv · 11.06.2026 ·Оркестрация агентов

DoorDash адаптирует веса целей в трёхстороннем маркетплейсе через RL

Исследователи из DoorDash представили систему reinforcement learning, которая адаптирует веса целей в трёхстороннем маркетплейсе (курьеры, заказчики, рестораны) на основе задержанной обратной связи. Система оценивает решения по таким метрикам, как скорость доставки, использование курьеров и загруженность ресторанов.

Ключевая особенность подхода — использование задержанной обратной связи для адаптации весов целей. Это позволяет системе учитывать долгосрочные последствия решений, что особенно важно в динамичных средах, таких как доставка еды.

Система уже развернута в производственной среде DoorDash, что демонстрирует её практическую применимость. Это важно для разработки ИИ-агентов, так как показывает, как можно использовать RL для оптимизации сложных процессов с множеством участников и задержанной обратной связью.

Для Jarv этот подход может быть полезен в контексте оркестрации агентов и управления их взаимодействиями. Адаптация весов целей на основе обратной связи может помочь в оптимизации работы агентов в сложных средах с множеством участников и задержанной обратной связью.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · ИИ в бизнесе DoorDash использует ансамбли LLM для классификации метаданных еды Компания DoorDash внедрила систему «LLM-жюри» для автоматизации разметки метаданных в своем каталоге блюд. Вместо использования одной модели, система задействует несколько LLM, которые независимо анализируют изображения и описания позиций меню. Финальный результат формируется на основе консенсуса моделей, что позволяет значительно повысить точность классификации ингредиентов и категорий еды при масштабировании сервиса. AI News & Artificial Intelligence | TechCrunch · Инфраструктура для агентов DoorDash выпустила CLI-инструмент для интеграции заказов в ИИ-агентов Компания DoorDash запустила бета-версию утилиты dd-cli, позволяющей взаимодействовать с сервисом через командную строку. Инструмент дает возможность разработчикам и ИИ-агентам искать магазины, формировать корзины и оформлять заказы напрямую из терминала. Этот шаг отражает растущий тренд на создание программных интерфейсов, адаптированных для автоматизированных систем, а не только для взаимодействия с конечными пользователями. arXiv · Исследования и наука Адаптивное воображение для переноса обучения в визуальном RL Исследователи представили метод Domain Adaptation with Adaptive Imagination (DAAI), решающий проблему переноса моделей обучения с подкреплением (RL) из симуляции в реальный мир. Новый подход позволяет агентам адаптироваться к визуальным различиям сред при ограниченном объеме реальных данных, минимизируя разрыв в распределении состояний, который критически затрудняет работу систем компьютерного зрения в робототехнике. Together.ai · Обучение и дообучение Ускорение RL-тренировок на 50% с помощью DAS Исследователи из Together AI предложили метод DAS (Distribution-Aware Speculative Decoding), который ускоряет процесс rollout в reinforcement learning (RL) на 50% без потери качества. Rollout — это этап, когда агент тестирует свои действия в среде, и он часто становится узким местом в обучении RL-моделей. Hacker News · ИИ в бизнесе Опыт DoorDash по внедрению ИИ-ассистента для ревью кода Компания DoorDash внедрила автоматизированную систему проверки кода на базе ИИ, чтобы ускорить процесс разработки и снизить нагрузку на инженеров. Внедрение потребовало изменения внутренних процессов и настройки доверия к модели. В результате команда добилась значительного сокращения времени на ревью, сохранив при этом высокое качество программного обеспечения и минимизировав количество ошибок в продакшене. arXiv · Обучение и дообучение Новый метод для эффективного онлайн-обучения визуально-языковых агентов Исследователи предложили новый подход к онлайн-обучению визуально-языковых агентов (VLA) с использованием методов reinforcement learning (RL). В статье, опубликованной на arXiv, они описывают метод Hierarchical Advantage Weighting (HAW), который решает проблему редких и неинформативных сигналов обратной связи в процессе обучения. Hacker News · Машинное обучение Применение аспектно-ориентированного программирования для логирования данных DRL-агентов Исследователи предложили использовать аспектно-ориентированное программирование (АОП) для сбора данных при обучении агентов с подкреплением (DRL). Этот подход позволяет отделять логику сбора метрик и состояний среды от основного кода алгоритма, что упрощает отладку сложных систем и делает процесс мониторинга обучения более прозрачным, не перегружая при этом архитектуру модели лишними зависимостями. arXiv · Обучение и дообучение Новый метод обучения LLM через промежуточное RL Исследователи предложили новый подход к обучению языковых моделей (LLM) с использованием reinforcement learning (RL) на промежуточном этапе обучения. В статье, опубликованной на arXiv, авторы показывают, что традиционные методы RL с редкими наградами (sparse reward RL) сильно зависят от начальной подготовки модели. arXiv · Машинное обучение Новый метод оптимизации функций вознаграждения в обучении с подкреплением Исследователи представили фреймворк для настройки функций вознаграждения в обучении с подкреплением без модели (model-free RL), решающий проблему «паралича политики» и избыточной осторожности агентов. На примере задачи автоматической парковки автомобилей с нехолономными ограничениями метод демонстрирует, как параметризованное формирование вознаграждения и регуляризация переключения направлений движения позволяют агентам избегать локальных минимумов и эффективно достигать целевых состояний. arXiv · Исследования и наука Физически-информированное обучение с подкреплением для управления динамическими системами Исследователи представили метод обучения с подкреплением (RL), дополненный физическими законами, для управления сложными динамическими системами в реальном времени. Интеграция физических моделей позволяет значительно сократить количество необходимых взаимодействий со средой, решая проблему низкой эффективности выборки, характерную для классических RL-алгоритмов, что открывает возможности для применения ИИ в задачах с высокой размерностью и жесткими требованиями к точности.

← Все материалы