Исследователи представили метод Kamera, решающий проблему избыточных вычислений при работе мультимодальных моделей с длинным контекстом. В текущих архитектурах агенты вынуждены повторно кодировать одни и те же визуальные данные — кадры видео или скриншоты интерфейсов — при каждом сдвиге контекстного окна. Стандартные механизмы кэширования префиксов не справляются с этой задачей, так как они привязаны к фиксированной позиции токенов, что делает невозможным эффективное повторное использование данных при итеративном анализе.
Технология Kamera вводит унифицированный инвариантный к позиции KV-кэш, который позволяет модели обращаться к уже обработанным визуальным фрагментам без необходимости их пересчета. Ключевым нововведением стало устранение потерь при «склейке» контекста: метод сохраняет кросс-блочные зависимости, которые обычно теряются при наивном объединении чанков. Это позволяет агентам сохранять контекстную осведомленность о визуальных объектах на протяжении всего цикла рассуждений.
Применение данного подхода существенно снижает вычислительные затраты и задержки при работе с мультимодальными данными. Поскольку повторное кодирование визуальных артефактов является одной из самых ресурсоемких операций в агентных системах, оптимизация KV-кэша позволяет значительно ускорить инференс без необходимости дообучения моделей. Решение ориентировано на инфраструктурную поддержку агентов, работающих с динамическими средами, где требуется постоянное обращение к одним и тем же визуальным контекстам.