Исследователи из MIT и других университетов предложили новую архитектуру PACT (Plan, Align, Commit, Think), которая объединяет реактивные политики обучения с подкреплением (RL) с медленным, но осознанным планированием с помощью малого языкового модели (SLM). Это решение направлено на проблему деградации RL-политик в незнакомых средах, где отсутствует явное планирование.
PACT работает асинхронно: когда RL-агент сталкивается с неопределённостью, он вызывает SLM для генерации и проверки кандидатов на планы действий. После проверки план фиксируется, и агент действует в соответствии с ним. Это позволяет сочетать быстроту реакции RL с глубиной анализа языковых моделей.
Авторы отмечают, что PACT показывает улучшение в задачах, требующих долгосрочного планирования, например, в навигации по сложным средам. Архитектура может быть полезна для разработки ИИ-агентов, которым нужно балансировать между скоростью и осознанностью решений.
Работа опубликована на arXiv и доступна по ссылке: https://arxiv.org/abs/2606.16995v1. Это важный шаг в направлении создания более гибких и адаптивных агентов, способных работать в динамичных и неопределённых условиях.