Обучение и дообучение

Tencent представил фреймворк UniRL для обучения мультимодальных моделей GitHub · 08.06.2026 Компания Tencent выпустила фреймворк UniRL, предназначенный для обучения мультимодальных моделей с использованием подкрепляющего обучения (Reinforcement Learning). Этот инструмент позволяет интегрировать различные типы данных, включая текст, изображения и видео, в единый процесс обучения. Это особенно важно для разработки ИИ-агентов, которые должны эффективно обрабатывать и анализировать разнообразные данные. OpenEnv: открытая платформа для обучения агентов через RL Hugging Face - Blog · 07.06.2026 Команда Hugging Face анонсировала OpenEnv — открытую платформу для обучения ИИ-агентов с использованием подхода Reinforcement Learning (RL). Платформа предоставляет набор инструментов и инфраструктуру для создания, тестирования и развертывания агентов, способных взаимодействовать с окружающей средой и учиться на основе обратной связи. Ускорение RL-тренировок на 50% с помощью DAS Together.ai · 23.04.2026 Исследователи из Together AI предложили метод DAS (Distribution-Aware Speculative Decoding), который ускоряет процесс rollout в reinforcement learning (RL) на 50% без потери качества. Rollout — это этап, когда агент тестирует свои действия в среде, и он часто становится узким местом в обучении RL-моделей. Decoupled DiLoCo от DeepMind для устойчивого распределённого обучения Google DeepMind News · 22.04.2026 DeepMind представила новый подход к распределённому обучению нейронных сетей — Decoupled DiLoCo (Decoupled Distributed Learning with Communication). Этот метод позволяет значительно повысить устойчивость и эффективность обучения моделей в условиях ограниченной или ненадёжной связи между узлами. В отличие от традиционных методов, где синхронизация данных между узлами может стать узким местом, Decoupled DiLoCo использует асинхронный обмен информацией, что делает процесс обучения более гибким и устойчивым к сбоям. На Replicate появилась возможность тонкой настройки моделей видео Replicate's blog · 23.01.2025 Платформа Replicate добавила поддержку тонкой настройки моделей видео. Пользователи могут адаптировать HunyuanVideo от Tencent под свои нужды, изменяя стиль, движение и персонажей.