arXiv · 15.06.2026 ·Память и RAG

PACT: гибридная архитектура для планирования в RL

Исследователи из MIT и других университетов предложили новую архитектуру PACT (Plan, Align, Commit, Think), которая объединяет реактивные политики обучения с подкреплением (RL) с медленным, но осознанным планированием с помощью малого языкового модели (SLM). Это решение направлено на проблему деградации RL-политик в незнакомых средах, где отсутствует явное планирование.

PACT работает асинхронно: когда RL-агент сталкивается с неопределённостью, он вызывает SLM для генерации и проверки кандидатов на планы действий. После проверки план фиксируется, и агент действует в соответствии с ним. Это позволяет сочетать быстроту реакции RL с глубиной анализа языковых моделей.

Авторы отмечают, что PACT показывает улучшение в задачах, требующих долгосрочного планирования, например, в навигации по сложным средам. Архитектура может быть полезна для разработки ИИ-агентов, которым нужно балансировать между скоростью и осознанностью решений.

Работа опубликована на arXiv и доступна по ссылке: https://arxiv.org/abs/2606.16995v1. Это важный шаг в направлении создания более гибких и адаптивных агентов, способных работать в динамичных и неопределённых условиях.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Исследования и наука Latent Memory Palace: новый подход к адаптивному рассуждению в задачах управления Исследователи представили метод Latent Memory Palace, который переносит способности LLM к адаптивному рассуждению в область непрерывного управления робототехникой. В отличие от стандартных моделей, работающих в языковом пространстве, этот подход использует вариационный вывод для создания скрытых представлений, что позволяет агентам гибко переключаться между мгновенными реакциями и длительным планированием действий в сложных динамических средах. GitHub · Инфраструктура для агентов Представлен фреймворк AxisRL для обучения ИИ-агентов с подкреплением Команда XYZ-AI-Lab выпустила AxisRL — специализированный фреймворк для пост-тренировки ИИ-агентов с использованием обучения с подкреплением (RL). Решение объединяет возможности высокопроизводительного инференса SGLang, масштабируемые методы обучения Megatron и реальные сценарии взаимодействия агентов, позволяя оптимизировать модели для выполнения сложных многошаговых задач в динамических средах. arXiv · Инфраструктура для агентов CompactionRL: оптимизация памяти для долгосрочных ИИ-агентов Исследователи представили метод CompactionRL, решающий проблему ограниченного контекстного окна у LLM при выполнении длительных задач. Алгоритм использует обучение с подкреплением для сжатия истории взаимодействий агента, позволяя сохранять критически важную информацию в компактном виде. Это позволяет агентам эффективно завершать сложные многошаговые процессы, не превышая лимиты токенов и сохраняя высокую точность принятия решений. arXiv · Память и RAG ContextRL: контекст-осознанное обучение для улучшения работы ИИ-агентов Исследователи из MIT и других ведущих университетов представили новый метод ContextRL, который улучшает способность языковых моделей (LLM) работать с длинными и сложными контекстами. Проблема заключается в том, что традиционные LLM часто не могут выделить ключевые детали в объемных данных, будь то строка в логах или мелкий элемент на изображении. ContextRL использует методы подкрепляющего обучения (RL), чтобы улучшить долгосрочное рассуждение и работу с мультимодальными данными. arXiv · Инфраструктура для агентов Адаптивное пакетное выполнение запросов к LLM через обучение с подкреплением Исследователи предложили метод адаптивного пакетного выполнения запросов (batching) для систем инференса LLM, заменяющий статические политики динамическим управлением на базе обучения с подкреплением (RL). Использование алгоритмов REINFORCE и PPO позволяет системам автоматически оптимизировать пропускную способность и задержки в условиях непредсказуемых и неоднородных нагрузок, превосходя традиционные эвристические подходы, требующие ручной настройки параметров. arXiv · Обучение и дообучение Использование RL-обучения для улучшения агентных способностей LLM Исследователи обнаружили, что стандартное обучение с подкреплением (RL) при дообучении моделей уже содержит скрытый потенциал для улучшения агентных навыков. Авторы работы доказывают, что этот процесс позволяет эффективно оценивать пошаговые действия моделей без необходимости в сложных внешних системах вознаграждения, что критически важно для решения долгосрочных задач в стохастических средах, где традиционные методы аннотирования данных практически не работают. arXiv · Память и RAG Proactive Memory Agent: решение проблемы забывания в долгосрочных задачах Исследователи представили Proactive Memory Agent — архитектурный подход для ИИ-агентов, работающих над задачами с длинным горизонтом планирования. Метод решает проблему «поведенческого дрейфа», когда критически важная информация теряется в растущем контекстном окне. Система проактивно извлекает и структурирует данные о целях, прошлых попытках и состоянии среды, обеспечивая их доступность в нужный момент принятия решения. arXiv · Инфраструктура для агентов OpenForgeRL: новый подход к сквозному обучению ИИ-агентов Исследователи представили OpenForgeRL — фреймворк для сквозного обучения ИИ-агентов, работающих в сложных средах с использованием внешних инструментов. Решение позволяет интегрировать современные агентные обвязки (harnesses) непосредственно в пайплайны обучения с подкреплением (RL) и дообучения (SFT), устраняя разрыв между сложной логикой вывода и процессами оптимизации моделей, что ранее было технически затруднительно. Hacker News · Инфраструктура для агентов Реализация ИИ-агента на языке Lisp в 100 строк кода Разработчик представил минималистичную реализацию автономного ИИ-агента, написанную на языке Lisp всего в 100 строк кода. Проект демонстрирует базовые принципы агентной архитектуры: цикл планирования, взаимодействие с LLM через API и выполнение внешних инструментов. Это наглядный пример того, как функциональное программирование упрощает создание логики управления агентами без использования тяжеловесных фреймворков. arXiv · Оркестрация агентов The Latent Bridge: архитектура для ИИ-агентов с низким временем отклика Исследователи представили архитектуру The Latent Bridge, решающую проблему задержек при работе ИИ-агентов в динамических средах. Система объединяет медленное логическое планирование (через VLM) с быстрым реактивным управлением, позволяя агентам действовать в режиме реального времени (15 Гц) при сохранении долгосрочного планирования. Метод преодолевает разрыв между качеством рассуждений и скоростью отклика, критически важный для управления компьютерными интерфейсами и играми.

← Все материалы