Обучение и дообучение
Tencent представил фреймворк UniRL для обучения мультимодальных моделей
Компания Tencent выпустила фреймворк UniRL, предназначенный для обучения мультимодальных моделей с использованием подкрепляющего обучения (Reinforcement Learning). Этот инструмент позволяет интегрировать различные типы данных, включая текст, изображения и видео, в единый процесс обучения. Это особенно важно для разработки ИИ-агентов, которые должны эффективно обрабатывать и анализировать разнообразные данные.
OpenEnv: открытая платформа для обучения агентов через RL
Команда Hugging Face анонсировала OpenEnv — открытую платформу для обучения ИИ-агентов с использованием подхода Reinforcement Learning (RL). Платформа предоставляет набор инструментов и инфраструктуру для создания, тестирования и развертывания агентов, способных взаимодействовать с окружающей средой и учиться на основе обратной связи.
Ускорение RL-тренировок на 50% с помощью DAS
Исследователи из Together AI предложили метод DAS (Distribution-Aware Speculative Decoding), который ускоряет процесс rollout в reinforcement learning (RL) на 50% без потери качества. Rollout — это этап, когда агент тестирует свои действия в среде, и он часто становится узким местом в обучении RL-моделей.
Decoupled DiLoCo от DeepMind для устойчивого распределённого обучения
DeepMind представила новый подход к распределённому обучению нейронных сетей — Decoupled DiLoCo (Decoupled Distributed Learning with Communication). Этот метод позволяет значительно повысить устойчивость и эффективность обучения моделей в условиях ограниченной или ненадёжной связи между узлами. В отличие от традиционных методов, где синхронизация данных между узлами может стать узким местом, Decoupled DiLoCo использует асинхронный обмен информацией, что делает процесс обучения более гибким и устойчивым к сбоям.
На Replicate появилась возможность тонкой настройки моделей видео
Платформа Replicate добавила поддержку тонкой настройки моделей видео. Пользователи могут адаптировать HunyuanVideo от Tencent под свои нужды, изменяя стиль, движение и персонажей.