Hugging Face - Blog · 03.06.2026 ·Другое

Direct Preference Optimization за пределами чатботов

Исследователи из Dharma AI представили новый подход к Direct Preference Optimization (DPO), который выходит за рамки традиционных чатботов. В статье на Hugging Face они демонстрируют, как DPO может быть применён для улучшения поведения ИИ-агентов в более сложных сценариях, включая многозадачные и интерактивные системы.

Ключевая идея заключается в том, что DPO позволяет моделям обучаться на предпочтениях пользователей, что делает их более адаптивными и полезными в реальных условиях. Это особенно важно для разработчиков ИИ-агентов, так как позволяет создавать системы, которые лучше понимают контекст и могут принимать более обоснованные решения.

В статье также рассматриваются примеры применения DPO в различных областях, включая автоматизацию бизнес-процессов и персонализированные рекомендации. Исследователи подчеркивают, что DPO может значительно улучшить качество взаимодействия с ИИ-агентами, делая их более естественными и эффективными.

Для команды, работающей над Jarv, этот подход может стать важным инструментом для улучшения поведения агента. Использование DPO позволит сделать Jarv более адаптивным и способным к обучению на основе предпочтений пользователей, что в конечном итоге повысит его полезность и удовлетворённость пользователей.

Источник: Hugging Face - Blog

Обсудить с ИИ

Похожие материалы

Hacker News · Обучение и дообучение Путь от академического исследования до Frontier LLM через DPO Метод Direct Preference Optimization (DPO) стал стандартом для настройки поведения современных языковых моделей. В отличие от традиционного обучения с подкреплением на основе отзывов людей (RLHF), DPO позволяет оптимизировать модель напрямую через пары предпочтений, исключая необходимость в обучении отдельной модели вознаграждения. Это значительно упрощает пайплайн дообучения и повышает стабильность итоговых результатов. Hacker News · Оркестрация агентов Intent-Driven Delivery для агентов Разработчики из Tacoda представили концепцию Intent-Driven Delivery — подхода к оркестрации задач для ИИ-агентов. В отличие от традиционных систем, где агент выполняет последовательность шагов, Intent-Driven Delivery фокусируется на конечных целях пользователя, позволяя агенту гибко адаптировать стратегию выполнения. arXiv · Инфраструктура для агентов Новый метод для координации агентов с разными целями Исследователи из MIT и Университета Карнеги-Меллона представили новый подход к обучению ИИ-агентов в условиях многозадачности и конфликтов целей. В статье на arXiv они описывают Preference Coordinated Multi-agent Policy Optimization (PCMA) — метод, который позволяет агентам координировать свои действия даже при наличии противоречивых целей и различий в наблюдениях и ролях. arXiv · Модели и релизы Почему самоулучшающиеся модели могут деградировать на новых задачах Исследователи из Arxiv выявили проблему в популярном подходе к самоулучшению визуально-языковых моделей (VLM), основанном на DPO (Direct Preference Optimization). В таких системах «верфикатор» оценивает генерации модели, а на основе лучших и худших примеров происходит обучение. Авторы показали, что этот метод может привести к деградации модели на новых задачах, несмотря на улучшение на обучающих данных. Microsoft Research · Память и RAG SocialReasoning-Bench: как ИИ-агенты действуют в интересах пользователей Исследователи из Microsoft представили SocialReasoning-Bench — новый бенчмарк, который оценивает способность ИИ-агентов действовать в интересах пользователей. В ходе тестирования различных моделей выяснилось, что хотя агенты демонстрируют компетентность в выполнении задач, они не всегда способны улучшать положение пользователя, даже при явных инструкциях оптимизировать свои действия. Hacker News · Инфраструктура для агентов Data-Oriented Design подход к архитектуре ИИ-агентов Data-Oriented Design (DOD) — это методология проектирования программных систем, которая фокусируется на данных, а не на объектах. В отличие от объектно-ориентированного подхода, DOD предлагает рассматривать данные как основную единицу обработки, что может значительно улучшить производительность и масштабируемость систем. The latest research from Google · Память и RAG Исследование Google: как обучить ИИ разумно рассуждать Исследователи Google представили новый подход к обучению языковых моделей разумному рассуждению на основе байесовских принципов. В статье, опубликованной на официальном блоге Google Research, описывается метод, который позволяет моделям лучше обрабатывать вероятностные данные и принимать решения в условиях неопределенности. Это особенно важно для разработки ИИ-агентов, которые должны работать в динамических и сложных средах, где точность и логичность рассуждений критически важны. arXiv · Машинное обучение Новый метод обучения с подкреплением на основе предпочтений UBP2 Исследователи представили алгоритм UBP2 (Uncertainty-Balanced Preference Planning), направленный на повышение эффективности обучения с подкреплением на основе предпочтений (Preference-based RL). Традиционные подходы в этой области часто зависят от пассивного сбора данных, что приводит к низкой скорости обучения, особенно на начальных этапах, когда системе не хватает информации о предпочтениях пользователя. Hacker News · Исследования и наука Исследование DPBench раскрывает ключи к эффективной координации агентов Учёные из Стэнфорда и MIT представили исследование DPBench, которое исследует структурные детерминанты координации между мультиагентными системами на основе больших языковых моделей (LLM). Исследование выявляет ключевые факторы, влияющие на эффективность взаимодействия агентов, включая архитектуру, механизмы коммуникации и стратегии принятия решений. Hugging Face - Blog · Память и RAG Ecom-RLVE: адаптивные среды для чат-ботов в e-commerce Исследователи представили Ecom-RLVE — фреймворк для создания адаптивных и проверяемых сред обучения для чат-ботов в сфере e-commerce. Это решение позволяет создавать динамические среды, которые могут адаптироваться к изменениям в данных и поведении пользователей, что критически важно для разработки ИИ-агентов, работающих в условиях высокой изменчивости.

← Все материалы