Исследователи предложили новый подход к обучению языковых моделей (LLM) с использованием reinforcement learning (RL) на промежуточном этапе обучения. В статье, опубликованной на arXiv, авторы показывают, что традиционные методы RL с редкими наградами (sparse reward RL) сильно зависят от начальной подготовки модели.

Обычно модели сначала обучаются на специально подобранных данных, которые учат их базовым навыкам, таким как декомпозиция задач, проверка и самокоррекция. Однако этот процесс может быть неэффективным и трудоемким. Новый метод, названный ExpRL (Exploratory RL), предлагает интегрировать RL на более ранних этапах обучения, что позволяет модели быстрее и эффективнее осваивать сложные навыки.

Авторы утверждают, что ExpRL может значительно улучшить качество моделей, особенно в задачах, требующих сложного рассуждения. Это особенно важно для разработки ИИ-агентов, которые должны обладать высокой степенью автономности и способностью к адаптации.

Исследование было проведено с использованием открытых данных и моделей, что делает его доступным для дальнейшего изучения и применения в реальных проектах. Разработчики ИИ-агентов могут использовать этот метод для улучшения качества своих моделей и повышения их эффективности в различных задачах.