Hacker News · 16.06.2026 ·Обучение и дообучение

GoLongRL: новый подход к обучению агентов с длинным контекстом

Исследователи из XiaoxuanNLP представили GoLongRL — фреймворк для обучения агентов с длинным контекстом, основанный на подходе reinforcement learning (RL). В отличие от традиционных методов, GoLongRL фокусируется на способностях (capabilities) агентов, а не на конкретных задачах, что позволяет лучше адаптироваться к новым сценариям.

Ключевая особенность GoLongRL — использование мультизадачного выравнивания (multitask alignment), которое помогает агентам эффективно обучаться на разнообразных данных. Это особенно важно для ИИ-агентов, которым необходимо работать с большими объемами информации и быстро адаптироваться к новым условиям.

Фреймворк включает в себя несколько ключевых компонентов: систему вознаграждений, которая оценивает способности агента, и механизм выравнивания задач, который помогает агенту обучаться на разных типах данных. Исследователи утверждают, что GoLongRL показывает лучшие результаты по сравнению с традиционными методами RL в задачах с длинным контекстом.

Для разработчиков ИИ-агентов, таких как Jarv, GoLongRL представляет интерес как потенциальный инструмент для улучшения обучения агентов. Возможность работать с длинным контекстом и адаптироваться к новым задачам может значительно повысить эффективность и надежность агентов в реальных сценариях.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

arXiv · Память и RAG ContextRL: контекст-осознанное обучение для улучшения работы ИИ-агентов Исследователи из MIT и других ведущих университетов представили новый метод ContextRL, который улучшает способность языковых моделей (LLM) работать с длинными и сложными контекстами. Проблема заключается в том, что традиционные LLM часто не могут выделить ключевые детали в объемных данных, будь то строка в логах или мелкий элемент на изображении. ContextRL использует методы подкрепляющего обучения (RL), чтобы улучшить долгосрочное рассуждение и работу с мультимодальными данными. GitHub · Инфраструктура для агентов Представлен фреймворк AxisRL для обучения ИИ-агентов с подкреплением Команда XYZ-AI-Lab выпустила AxisRL — специализированный фреймворк для пост-тренировки ИИ-агентов с использованием обучения с подкреплением (RL). Решение объединяет возможности высокопроизводительного инференса SGLang, масштабируемые методы обучения Megatron и реальные сценарии взаимодействия агентов, позволяя оптимизировать модели для выполнения сложных многошаговых задач в динамических средах. arXiv · Обучение и дообучение Новый метод обучения LLM через промежуточное RL Исследователи предложили новый подход к обучению языковых моделей (LLM) с использованием reinforcement learning (RL) на промежуточном этапе обучения. В статье, опубликованной на arXiv, авторы показывают, что традиционные методы RL с редкими наградами (sparse reward RL) сильно зависят от начальной подготовки модели. arXiv · Инфраструктура для агентов CompactionRL: оптимизация памяти для долгосрочных ИИ-агентов Исследователи представили метод CompactionRL, решающий проблему ограниченного контекстного окна у LLM при выполнении длительных задач. Алгоритм использует обучение с подкреплением для сжатия истории взаимодействий агента, позволяя сохранять критически важную информацию в компактном виде. Это позволяет агентам эффективно завершать сложные многошаговые процессы, не превышая лимиты токенов и сохраняя высокую точность принятия решений. arXiv · Машинное обучение Новый подход к метаобучению в reinforcement learning Исследователи предложили новый фреймворк для метаобучения в reinforcement learning (RL), который улучшает адаптацию агентов к новым задачам. В традиционных методах метаобучения RL задача распознавания и управление телом агента часто связаны, что усложняет извлечение общих знаний и снижает эффективность обучения. arXiv · Инфраструктура для агентов OpenForgeRL: новый подход к сквозному обучению ИИ-агентов Исследователи представили OpenForgeRL — фреймворк для сквозного обучения ИИ-агентов, работающих в сложных средах с использованием внешних инструментов. Решение позволяет интегрировать современные агентные обвязки (harnesses) непосредственно в пайплайны обучения с подкреплением (RL) и дообучения (SFT), устраняя разрыв между сложной логикой вывода и процессами оптимизации моделей, что ранее было технически затруднительно. arXiv · Обучение и дообучение Использование RL-обучения для улучшения агентных способностей LLM Исследователи обнаружили, что стандартное обучение с подкреплением (RL) при дообучении моделей уже содержит скрытый потенциал для улучшения агентных навыков. Авторы работы доказывают, что этот процесс позволяет эффективно оценивать пошаговые действия моделей без необходимости в сложных внешних системах вознаграждения, что критически важно для решения долгосрочных задач в стохастических средах, где традиционные методы аннотирования данных практически не работают. Hacker News · Машинное обучение Метод сбора токенов для улучшения обучения ИИ-агентов с подкреплением Исследователи Amazon представили новый подход к обучению ИИ-агентов, основанный на фиксации идентификаторов токенов в процессе их взаимодействия со средой. Метод позволяет более эффективно использовать обучение с подкреплением (RL), преобразуя последовательности действий в структурированные данные. Это помогает моделям точнее оценивать качество принятых решений и быстрее адаптироваться к сложным задачам в динамических условиях. arXiv · Обучение и дообучение Новый метод для эффективного онлайн-обучения визуально-языковых агентов Исследователи предложили новый подход к онлайн-обучению визуально-языковых агентов (VLA) с использованием методов reinforcement learning (RL). В статье, опубликованной на arXiv, они описывают метод Hierarchical Advantage Weighting (HAW), который решает проблему редких и неинформативных сигналов обратной связи в процессе обучения. Hacker News · Оркестрация агентов LangChain представила DeepAgents для автоматизированного обучения агентов Команда LangChain выпустила DeepAgents — фреймворк для автоматизации процесса обучения и оптимизации ИИ-агентов. Инструмент позволяет агентам самостоятельно совершенствовать свои навыки, используя итеративные циклы обратной связи и анализ результатов выполнения задач. Решение направлено на повышение автономности систем и снижение зависимости от ручной настройки промптов при создании сложных агентных цепочек.

← Все материалы