Джуньян Лин, экс-руководитель разработки моделей Qwen в Alibaba, проанализировал ограничения гибридных подходов к рассуждениям в LLM. Он утверждает, что попытки внедрить динамические бюджеты мышления в архитектуру моделей оказались менее эффективными, чем ожидалось. Теперь фокус смещается в сторону агентных систем, где ключевым вызовом становится создание надежной инфраструктуры для обучения с подкреплением (RL).

В своем разборе Лин указывает на фундаментальный разрыв между моделями, оптимизированными для линейного логического вывода, и системами, способными к автономному агентному поведению. Гибридные методы, пытающиеся совместить быстрые и медленные процессы мышления внутри одного весового пространства, часто сталкиваются с проблемой непредсказуемости ответов и неэффективного использования вычислительных ресурсов при решении сложных многошаговых задач.

Переход к агентной парадигме требует пересмотра подходов к обучению. Основная сложность заключается в проектировании функций вознаграждения (reward modeling) для агентов, которые должны взаимодействовать с внешней средой, а не просто генерировать текст. Лин подчеркивает, что агентное обучение требует принципиально иных пайплайнов данных, где среда предоставляет обратную связь, а не статичные наборы ответов.

Ключевые факты

  • Джуньян Лин занимал пост технического лида проекта Qwen в компании Alibaba.
  • Основная критика гибридного мышления касается неэффективности динамических бюджетов вычислений внутри моделей.
  • Агентное обучение с подкреплением признано более сложной инженерной задачей из-за необходимости проектирования динамических функций вознаграждения.
  • Разработчики смещают фокус с чисто логических моделей на системы, способные к автономному взаимодействию с инструментами и средой.
  • Инфраструктура для агентного обучения требует интеграции с внешними API и средами исполнения, что усложняет процесс сбора данных для RL.