arXiv · 22.06.2026 ·Инфраструктура для агентов

Kamera: оптимизация KV-кэша для мультимодальных агентов

Исследователи представили метод Kamera, решающий проблему избыточных вычислений при работе мультимодальных моделей с длинным контекстом. В текущих архитектурах агенты вынуждены повторно кодировать одни и те же визуальные данные — кадры видео или скриншоты интерфейсов — при каждом сдвиге контекстного окна. Стандартные механизмы кэширования префиксов не справляются с этой задачей, так как они привязаны к фиксированной позиции токенов, что делает невозможным эффективное повторное использование данных при итеративном анализе.

Технология Kamera вводит унифицированный инвариантный к позиции KV-кэш, который позволяет модели обращаться к уже обработанным визуальным фрагментам без необходимости их пересчета. Ключевым нововведением стало устранение потерь при «склейке» контекста: метод сохраняет кросс-блочные зависимости, которые обычно теряются при наивном объединении чанков. Это позволяет агентам сохранять контекстную осведомленность о визуальных объектах на протяжении всего цикла рассуждений.

Применение данного подхода существенно снижает вычислительные затраты и задержки при работе с мультимодальными данными. Поскольку повторное кодирование визуальных артефактов является одной из самых ресурсоемких операций в агентных системах, оптимизация KV-кэша позволяет значительно ускорить инференс без необходимости дообучения моделей. Решение ориентировано на инфраструктурную поддержку агентов, работающих с динамическими средами, где требуется постоянное обращение к одним и тем же визуальным контекстам.

Источник: arXiv

Похожие материалы

arXiv · Инфраструктура для агентов UltraQuant: оптимизация KV-кэша до 4 бит для работы с длинным контекстом Исследователи представили метод UltraQuant, направленный на решение проблемы нехватки памяти при работе с длинными контекстами в ИИ-агентах. Основная нагрузка в таких системах ложится на KV-кэш (Key-Value cache), который хранит промежуточные состояния модели. Использование 4-битного квантования позволяет значительно сократить объем занимаемой видеопамяти, сохраняя при этом точность генерации текста. Hacker News · Инференс и железо Как кеш ключ-значение влияет на VRAM при работе с длинным контекстом Работа с длинными контекстами в ИИ-моделях — одна из ключевых задач при разработке агентов. Однако увеличение длины контекста приводит к росту потребления VRAM, что ограничивает возможности инференса на доступном железе. В статье разбирается, как именно кеш ключ-значение (KV cache) влияет на использование памяти и какие стратегии позволяют оптимизировать этот процесс. MarkTechPost · Инфраструктура для агентов Методы сжатия KV-кэша: обзор подходов TurboQuant, OSCAR и EpiCache При работе с длинным контекстом в современных языковых моделях объем KV-кэша (Key-Value cache) часто превышает размер весов самой модели, создавая критическое узкое место в оперативной памяти. Для решения этой проблемы активно развиваются методы сжатия, среди которых выделяются три ключевых подхода: TurboQuant, OSCAR и EpiCache. Каждый из них предлагает свой способ оптимизации хранения данных, позволяя эффективно обрабатывать массивы токенов без существенной потери точности генерации. Hacker News · Память и RAG Новый метод компактификации кэша ключ-значение для ИИ-агентов Исследователи представили новый метод компактификации кэша ключ-значение (KV), который может значительно улучшить производительность ИИ-агентов. В статье, опубликованной на arXiv, описывается подход Still, который выполняет компактификацию за один проход, что снижает накладные расходы и ускоряет работу систем с большими объёмами данных. Hacker News · Инфраструктура для агентов Оптимизация контекста для снижения расхода токенов в ИИ-агентах Разработчики представили решение, позволяющее сократить потребление токенов более чем на 60% при выполнении агентных задач. Основной принцип работы заключается в автоматическом выявлении и удалении избыточного, повторяющегося контекста, который часто накапливается в ходе многошаговых рассуждений или длительных сессий взаимодействия с языковыми моделями. Hacker News · Оркестрация агентов Оптимизация архитектуры навыков для ИИ-агентов Разработчики агентных систем часто допускают ошибку, перегружая модель избыточным количеством инструментов. Принцип «чем больше навыков, тем умнее агент» на практике приводит к снижению точности выбора нужной функции и росту вероятности галлюцинаций. Когда список доступных API становится слишком длинным, модель начинает путаться в параметрах или выбирать неподходящие инструменты для решения конкретной задачи. Hacker News · Инфраструктура для агентов Оптимизация стоимости и безопасности в агентных рабочих процессах Разработан новый подход к проектированию агентных систем, направленный на снижение затрат на инференс и повышение предсказуемости поведения моделей. Основная идея заключается в переходе от использования тяжелых LLM для выполнения всех этапов задачи к многоуровневой архитектуре, где сложные логические операции делегируются специализированным компактным моделям или жестко заданным алгоритмическим модулям. arXiv · Инфраструктура для агентов Новый метод сжатия KV-кэша для LLM снижает нагрузку на память Исследователи предложили метод AnchorKV для сжатия ключевых значений (KV) в кэше языковых моделей. Это решение направлено на уменьшение нагрузки на память и энергопотребление при инференсе, что особенно актуально для крупных языковых моделей (LLM). Hacker News · Оркестрация агентов Архитектура Knowledge Agents: как структура побеждает масштаб моделей Исследователи представили концепцию Knowledge Agents, которая меняет подход к проектированию агентных систем. Вместо того чтобы полагаться исключительно на мощь «фронтирных» моделей, разработчики предлагают использовать специализированные структуры данных и графовые представления знаний. Такой подход позволяет агентам эффективнее оперировать контекстом, минимизируя галлюцинации и повышая точность ответов в узкоспециализированных задачах. arXiv · Исследования и наука OmniAgent: новый подход к анализу длинных видео через активное восприятие Исследователи представили OmniAgent — архитектуру для анализа видео, которая отходит от традиционной модели «пассивного просмотра». В отличие от существующих систем, которые обрабатывают все кадры видеоряда равномерно, что приводит к линейному росту вычислительных затрат при увеличении длительности записи, новый метод имитирует активное восприятие. Система самостоятельно выбирает наиболее информативные фрагменты для анализа в зависимости от поставленного запроса.

← Все материалы