MarkTechPost · 04.07.2026 ·Исследования и наука

Бывший техлид Qwen о переходе от гибридного мышления к агентным системам

Джуньян Лин, экс-руководитель разработки моделей Qwen в Alibaba, проанализировал ограничения гибридных подходов к рассуждениям в LLM. Он утверждает, что попытки внедрить динамические бюджеты мышления в архитектуру моделей оказались менее эффективными, чем ожидалось. Теперь фокус смещается в сторону агентных систем, где ключевым вызовом становится создание надежной инфраструктуры для обучения с подкреплением (RL).

В своем разборе Лин указывает на фундаментальный разрыв между моделями, оптимизированными для линейного логического вывода, и системами, способными к автономному агентному поведению. Гибридные методы, пытающиеся совместить быстрые и медленные процессы мышления внутри одного весового пространства, часто сталкиваются с проблемой непредсказуемости ответов и неэффективного использования вычислительных ресурсов при решении сложных многошаговых задач.

Переход к агентной парадигме требует пересмотра подходов к обучению. Основная сложность заключается в проектировании функций вознаграждения (reward modeling) для агентов, которые должны взаимодействовать с внешней средой, а не просто генерировать текст. Лин подчеркивает, что агентное обучение требует принципиально иных пайплайнов данных, где среда предоставляет обратную связь, а не статичные наборы ответов.

Ключевые факты

Джуньян Лин занимал пост технического лида проекта Qwen в компании Alibaba.
Основная критика гибридного мышления касается неэффективности динамических бюджетов вычислений внутри моделей.
Агентное обучение с подкреплением признано более сложной инженерной задачей из-за необходимости проектирования динамических функций вознаграждения.
Разработчики смещают фокус с чисто логических моделей на системы, способные к автономному взаимодействию с инструментами и средой.
Инфраструктура для агентного обучения требует интеграции с внешними API и средами исполнения, что усложняет процесс сбора данных для RL.

Источник: MarkTechPost

Обсудить с ИИ

Похожие материалы

Hacker News · Модели и релизы Qwen-RobotWorld: новый подход к обучению мультимодальных агентов Команда из Alibaba Group представила Qwen-RobotWorld — новый подход к обучению мультимодальных агентов. В техническом отчёте, опубликованном на arXiv, описаны методы, позволяющие моделям лучше понимать и взаимодействовать с физическим миром. Исследователи использовали комбинацию текстовых и визуальных данных, а также данные из симуляторов роботов для дообучения моделей. arXiv · Инфраструктура для агентов Qwen-AgentWorld: языковые модели как симуляторы среды для ИИ-агентов Исследователи представили Qwen-AgentWorld — новый подход к созданию ИИ-агентов, использующий языковые модели в качестве «мировых моделей» для предсказания динамики среды. Разработка позволяет агентам эффективнее планировать действия и рассуждать, моделируя последствия своих решений в виртуальном пространстве. Ключевым элементом системы стала специализированная модель Qwen-AgentWorld-35B-A3B, оптимизированная для симуляции агентных сред. NVIDIA Technical Blog · Машинное обучение Применение обучения с подкреплением в разработке ИИ-агентов Обучение с подкреплением (RL) становится ключевым методом для повышения автономности и точности ИИ-агентов. NVIDIA представила обзор подходов, позволяющих моделям эффективно принимать решения в динамических средах. Технологии эволюционируют от классического RLHF к более сложным методам, которые позволяют агентам самостоятельно оптимизировать цепочки рассуждений и корректировать действия для достижения долгосрочных целей в реальных бизнес-задачах. Hacker News · Исследования и наука Исследование OpenAI: переход от простых LLM к агентным системам Анализ данных платформы Codex демонстрирует фундаментальный сдвиг в использовании ИИ: разработчики всё чаще делегируют моделям выполнение многошаговых задач. Вместо разовых запросов пользователи переходят к агентным паттернам, где ИИ самостоятельно планирует действия и взаимодействует с внешними инструментами. Это меняет требования к архитектуре моделей, смещая фокус с генерации текста на надежность выполнения последовательных операций. GitHub · Оркестрация агентов Qwen-AgentWorld: новая среда для обучения языковых моделей агентным навыкам Команда Qwen представила Qwen-AgentWorld — открытую среду для обучения и оценки языковых моделей в задачах, требующих агентного поведения. Проект фокусируется на развитии навыков планирования, использования инструментов и взаимодействия с динамической средой. Система предоставляет стандартизированный фреймворк для тестирования способности моделей решать многошаговые задачи, имитируя реальные сценарии работы ИИ-агентов в условиях неопределенности. arXiv · Машинное обучение Почему обучение с подкреплением для ИИ-агентов приводит к деградации моделей Исследователи выявили причину «катастрофического коллапса» при обучении LLM использованию инструментов через Reinforcement Learning (RL). В ходе многошаговых задач модели часто теряют способность корректно вызывать функции, что ведет к резкому падению производительности. Авторы работы предложили метод внедрения дополнительных контролирующих сигналов, который стабилизирует процесс обучения и предотвращает разрушение агентных навыков в сложных сценариях. Hacker News · Машинное обучение Влияние ИИ-агентов на развитие компиляторов машинного обучения Развитие ИИ-агентов ставит под вопрос традиционные подходы к проектированию компиляторов для машинного обучения. Вместо жестких иерархических структур, оптимизирующих код под конкретное железо, на первый план выходят адаптивные системы, способные самостоятельно перестраивать графы вычислений и динамически подбирать стратегии исполнения, что меняет парадигму взаимодействия программного обеспечения с аппаратными ускорителями. Hugging Face - Blog · Исследования и наука Исследование AllenAI: какие токены лучше предсказывают гибридные модели Исследователи из Allen Institute for AI проанализировали эффективность гибридных моделей, сочетающих предсказание токенов и предсказание скрытых состояний. Анализ показал, что такие архитектуры лучше справляются с редкими словами и сложными синтаксическими конструкциями, где стандартные языковые модели на основе токенов часто допускают ошибки из-за ограничений словаря или особенностей токенизации. arXiv · Обучение и дообучение Использование RL-обучения для улучшения агентных способностей LLM Исследователи обнаружили, что стандартное обучение с подкреплением (RL) при дообучении моделей уже содержит скрытый потенциал для улучшения агентных навыков. Авторы работы доказывают, что этот процесс позволяет эффективно оценивать пошаговые действия моделей без необходимости в сложных внешних системах вознаграждения, что критически важно для решения долгосрочных задач в стохастических средах, где традиционные методы аннотирования данных практически не работают. Hacker News · Прогнозы и тренды Эволюция агентного ИИ: от чат-ботов к автономным системам Исследователи MIT проанализировали текущее состояние агентного ИИ, выделив переход от простых чат-интерфейсов к системам, способным к долгосрочному планированию и выполнению многоэтапных задач. Основной фокус смещается с генерации текста на способность агентов самостоятельно принимать решения, использовать внешние инструменты и корректировать свои действия для достижения сложных целей в реальных бизнес-процессах.

← Все материалы