Исследователи представили концепцию Execution-State Capsules — новый подход к сохранению и восстановлению состояния выполнения моделей, оптимизированный для работы на устройствах с ограниченными ресурсами. В отличие от стандартных систем обслуживания LLM, которые фокусируются на кэшировании ключей и значений (KV-кэш) для высоконагруженных серверов, этот метод ориентирован на сценарии с низкой задержкой и обработкой малых пакетов данных. Технология позволяет эффективно управлять состоянием агентов, работающих в реальном времени, например, в робототехнике или интерактивных голосовых системах.

Основная проблема существующих систем заключается в том, что они ограничиваются лишь кэшированием KV-блоков, игнорируя другие аспекты вычислительного процесса. Новый подход использует графовое представление состояния выполнения, что позволяет мгновенно переключаться между различными задачами или возобновлять работу агента после прерывания без необходимости повторного вычисления префиксных данных. Это критически важно для устройств, где вычислительная мощность процессора и объем оперативной памяти жестко ограничены.

Внедрение подобных решений открывает путь к созданию более отзывчивых локальных ИИ-систем, способных поддерживать сложные агентные сценарии без обращения к облачным серверам. Метод обеспечивает минимальные задержки при переключении контекста, что делает его перспективным для использования в физических ИИ-системах, требующих мгновенной реакции на внешние стимулы. Разработка позволяет значительно снизить накладные расходы при выполнении последовательных задач на периферийных устройствах.