Исследователи из Together AI предложили метод DAS (Distribution-Aware Speculative Decoding), который ускоряет процесс rollout в reinforcement learning (RL) на 50% без потери качества. Rollout — это этап, когда агент тестирует свои действия в среде, и он часто становится узким местом в обучении RL-моделей.

DAS использует адаптивное предсказание, которое анализирует распределение вероятностей и ускоряет генерацию действий. Это позволяет значительно сократить время обучения, не жертвуя качеством результата.

Метод может быть полезен для разработчиков, работающих с RL-агентами, особенно в задачах, где скорость обучения критична. Together AI отмечает, что DAS не требует дополнительных вычислений и легко интегрируется в существующие RL-системы.

Подробнее о технологии можно прочитать в блоге Together AI.