Together.ai · 23.04.2026 ·Обучение и дообучение

Ускорение RL-тренировок на 50% с помощью DAS

Ускорение RL-тренировок на 50% с помощью DAS

Исследователи из Together AI предложили метод DAS (Distribution-Aware Speculative Decoding), который ускоряет процесс rollout в reinforcement learning (RL) на 50% без потери качества. Rollout — это этап, когда агент тестирует свои действия в среде, и он часто становится узким местом в обучении RL-моделей.

DAS использует адаптивное предсказание, которое анализирует распределение вероятностей и ускоряет генерацию действий. Это позволяет значительно сократить время обучения, не жертвуя качеством результата.

Метод может быть полезен для разработчиков, работающих с RL-агентами, особенно в задачах, где скорость обучения критична. Together AI отмечает, что DAS не требует дополнительных вычислений и легко интегрируется в существующие RL-системы.

Подробнее о технологии можно прочитать в блоге Together AI.

Источник: Together.ai

Обсудить с ИИ

Похожие материалы

Hacker News · Исследования и наука Новый метод оптимизации для агентного обучения с подкреплением Исследователи представили метод Single-Rollout Asynchronous Optimization (SRAO), направленный на повышение эффективности обучения ИИ-агентов. Подход решает проблему вычислительной сложности в агентном обучении с подкреплением (RL), позволяя обновлять стратегии агентов асинхронно на основе единичных траекторий. Это значительно сокращает время подготовки моделей и повышает стабильность обучения в сложных динамических средах. arXiv · Исследования и наука Адаптивное воображение для переноса обучения в визуальном RL Исследователи представили метод Domain Adaptation with Adaptive Imagination (DAAI), решающий проблему переноса моделей обучения с подкреплением (RL) из симуляции в реальный мир. Новый подход позволяет агентам адаптироваться к визуальным различиям сред при ограниченном объеме реальных данных, минимизируя разрыв в распределении состояний, который критически затрудняет работу систем компьютерного зрения в робототехнике. arXiv · Исследования и наука Повышение интерпретируемости обучения с подкреплением через физически обоснованную дистилляцию Исследователи представили метод повышения прозрачности глубокого обучения с подкреплением (DRL) для критически важных систем, таких как робототехника и автомобилестроение. Новый подход использует физически обоснованную дистилляцию политики, позволяя переводить сложные «черные ящики» нейронных сетей в интерпретируемые модели, сохраняя при этом высокую производительность управления в непрерывных средах и упрощая прохождение регуляторных проверок. Hacker News · Машинное обучение Применение аспектно-ориентированного программирования для логирования данных DRL-агентов Исследователи предложили использовать аспектно-ориентированное программирование (АОП) для сбора данных при обучении агентов с подкреплением (DRL). Этот подход позволяет отделять логику сбора метрик и состояний среды от основного кода алгоритма, что упрощает отладку сложных систем и делает процесс мониторинга обучения более прозрачным, не перегружая при этом архитектуру модели лишними зависимостями. arXiv · Обучение и дообучение Новый метод обучения LLM через промежуточное RL Исследователи предложили новый подход к обучению языковых моделей (LLM) с использованием reinforcement learning (RL) на промежуточном этапе обучения. В статье, опубликованной на arXiv, авторы показывают, что традиционные методы RL с редкими наградами (sparse reward RL) сильно зависят от начальной подготовки модели. arXiv · Обучение и дообучение Использование RL-обучения для улучшения агентных способностей LLM Исследователи обнаружили, что стандартное обучение с подкреплением (RL) при дообучении моделей уже содержит скрытый потенциал для улучшения агентных навыков. Авторы работы доказывают, что этот процесс позволяет эффективно оценивать пошаговые действия моделей без необходимости в сложных внешних системах вознаграждения, что критически важно для решения долгосрочных задач в стохастических средах, где традиционные методы аннотирования данных практически не работают. arXiv · Машинное обучение Новый метод повышения эффективности RLHF для диффузионных моделей Исследователи представили метод Selective Timestep Weighting and Advantage-Based Replay, который значительно повышает эффективность обучения с подкреплением на основе отзывов людей (RLHF) для диффузионных моделей. Подход позволяет сократить количество необходимых оценок от человека или модели вознаграждения, решая проблему высокой ресурсоемкости адаптации генеративных моделей под предпочтения пользователей в реальных сценариях. arXiv · Машинное обучение DADiff: новый метод адаптации стратегий обучения с подкреплением через диффузионные модели Исследователи представили DADiff — метод адаптации стратегий обучения с подкреплением (RL) при переходе между различными доменами. Решение использует диффузионные модели для преодоления разрыва в динамике сред. Подход позволяет эффективно переносить навыки, обученные в исходном домене с большим объемом данных, в целевой домен, где количество доступных взаимодействий крайне ограничено, что критично для реальных робототехнических задач. arXiv · Оркестрация агентов Distributed Agent System: новая архитектура для отказоустойчивой работы ИИ-агентов Исследователи представили Distributed Agent System (DAS) — архитектуру для обеспечения надежной работы автономных агентов в условиях неопределенности. Система решает проблему накопления ошибок при выполнении долгосрочных задач, внедряя механизмы распределенного взаимодействия и отказоустойчивости. Это позволяет агентам эффективно координироваться и сохранять работоспособность даже при сбоях отдельных компонентов или нехватке вычислительных ресурсов в динамической среде. arXiv · Оркестрация агентов DoorDash адаптирует веса целей в трёхстороннем маркетплейсе через RL Исследователи из DoorDash представили систему reinforcement learning, которая адаптирует веса целей в трёхстороннем маркетплейсе (курьеры, заказчики, рестораны) на основе задержанной обратной связи. Система оценивает решения по таким метрикам, как скорость доставки, использование курьеров и загруженность ресторанов.

← Все материалы