arXiv · 23.06.2026 ·Обучение и дообучение

OpenThoughts-Agent: новый подход к подготовке данных для обучения ИИ-агентов

Исследователи представили OpenThoughts-Agent — методологию создания обучающих датасетов, направленную на повышение универсальности агентных моделей. В отличие от узкоспециализированных решений, ориентированных на конкретные бенчмарки, данный подход позволяет обучать модели, способные эффективно справляться с широким спектром задач, требующих многошагового планирования, рассуждения и взаимодействия с внешними инструментами в различных средах.

Основная проблема текущих агентных моделей заключается в дефиците качественных открытых данных, которые обучают систему не просто отвечать на вопросы, а выстраивать цепочку действий. Авторы работы систематизировали «рецепты» подготовки данных, которые включают в себя сложные траектории рассуждений и корректную обработку ошибок. Это позволяет моделям лучше обобщать опыт и адаптироваться к новым сценариям использования без необходимости переобучения под каждый отдельный кейс.

Данная методология призвана закрыть разрыв между специализированными моделями, заточенными под одну задачу (например, написание кода), и универсальными агентами. Использование предложенных наборов данных способствует развитию способности моделей к самокоррекции и более точному следованию инструкциям в условиях неопределенности, что является критическим фактором для создания надежных автономных систем.

Ключевые факты

OpenThoughts-Agent фокусируется на создании универсальных датасетов для обучения агентных моделей, выходящих за рамки узких бенчмарков.
Методология направлена на улучшение навыков планирования и многошагового рассуждения, необходимых для выполнения сложных прикладных задач.
Исследование предлагает структурированные «рецепты» данных, которые помогают моделям лучше обобщать опыт и эффективнее взаимодействовать с внешними инструментами.
Работа решает проблему нехватки открытых данных для обучения агентов, способных работать в разнообразных и динамических средах.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hugging Face - Blog · Оценка и бенчмарки Новый подход к оценке агентных способностей открытых моделей Hugging Face представила методологию для оценки того, насколько эффективно языковые модели справляются с использованием внешних инструментов. В отличие от стандартных тестов на логику или знание фактов, новый подход фокусируется на способности модели вызывать функции, интерпретировать ответы API и корректировать свои действия в рамках многошаговых задач. Это позволяет разработчикам точнее определять, какая модель лучше подходит для создания автономных агентов. arXiv · Обучение и дообучение Метод RODS для улучшения обучения агентов с использованием инструментов Исследователи представили метод RODS (Reward-Driven Online Data Synthesis), направленный на повышение эффективности обучения ИИ-агентов, работающих с внешними инструментами в многоходовых сценариях. Основная проблема существующих подходов заключается в быстром истощении полезных обучающих данных в статических наборах, что ограничивает развитие моделей. Новый метод решает эту задачу через динамическую генерацию данных, ориентированную на максимизацию обучающего сигнала. arXiv · Оркестрация агентов Новый метод обучения агентов для работы с графическими интерфейсами Исследователи представили подход к обучению агентов (Computer-Use Agents), способных выполнять задачи в графических интерфейсах через подкрепляющее обучение. Основная проблема — отсутствие масштабируемых сигналов вознаграждения в десктопных средах — решена с помощью системы автономной оценки. Это позволяет агентам обучаться достижению целей, опираясь на визуальное подтверждение успеха без необходимости ручной разметки данных или создания сложных функций вознаграждения. arXiv · Оценка и бенчмарки AgentBeats: новый подход к оценке ИИ-агентов Исследователи из Arxiv предложили новый подход к оценке ИИ-агентов, который решает проблему фрагментированности тестирования. В статье "AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility" авторы отмечают, что существующие бенчмарки часто зависят от фиксированных, ориентированных на LLM, тестовых фреймворков. Это создает несоответствие между тестовыми и производственными условиями, а также ограничивает справедливое сравнение различных архитектур агентов. arXiv · Машинное обучение Модельно-ориентированный подход к созданию сред для обучения с подкреплением Исследователи представили новый подход к разработке виртуальных сред, предназначенных для обучения агентов с подкреплением (RL). Традиционно создание таких систем требует значительных затрат времени, так как для успешной сходимости алгоритмов агентам необходимо тренироваться в множестве схожих, но вариативных условий. Авторы работы предлагают использовать модельно-ориентированную методологию, которая позволяет автоматизировать генерацию семейств сред, сохраняя при этом их функциональную близость. arXiv · Память и RAG Метод накопления преимуществ для самообучения ИИ-агентов Исследователи представили новый подход к обучению ИИ-агентов, основанный на механизме накопления маржинальных преимуществ (Marginal Advantage Accumulation). Метод решает проблему противоречивой обратной связи, возникающей при пакетной дистилляции траекторий, когда одни и те же операции с памятью получают разные оценки эффективности в разных итерациях обучения. Hacker News · Память и RAG Развитие систем самообучающейся памяти для ИИ-агентов Разработчики внедряют новые подходы к организации памяти, которые позволяют ИИ-агентам самостоятельно обновлять и структурировать накопленные данные. Вместо использования статических баз знаний, системы переходят к динамическому управлению контекстом, где агент в процессе работы анализирует важность полученной информации и отсеивает неактуальные сведения. Это позволяет значительно снизить объем потребляемых токенов при сохранении высокой точности ответов в долгосрочных диалогах. Hacker News · Исследования и наука Agentopia: исследование долгосрочной симуляции жизни в сообществах ИИ-агентов Исследователи представили проект Agentopia — среду для изучения долгосрочного поведения автономных ИИ-агентов в рамках симулированного социума. В отличие от краткосрочных тестов, где агенты решают изолированные задачи, здесь модели функционируют в условиях непрерывного взаимодействия, формирования социальных связей и адаптации к меняющимся условиям среды. Основная цель работы заключается в анализе того, как индивидуальные стратегии обучения влияют на устойчивость и развитие всей системы в долгосрочной перспективе. Hacker News · Оркестрация агентов Google DeepMind о будущем агентных систем Исследователи Google DeepMind представили обзор текущих подходов к созданию автономных ИИ-агентов, способных решать сложные многоэтапные задачи. В центре внимания — переход от простых чат-ботов к системам, которые могут планировать действия, использовать внешние инструменты и корректировать стратегию в процессе выполнения запроса. Hacker News · Исследования и наука Как открытые модели меняют подход к глубоким исследованиям Компания Thinkwright.ai представила исследование, в котором рассматривается влияние открытых моделей на процесс глубоких исследований. В статье подчёркивается, что открытые модели, такие как те, которые доступны в рамках инициативы Open Weight Models, позволяют исследователям проводить более детальные и точные анализы, не завися от закрытых решений.

← Все материалы