Hacker News · 24.06.2026 ·Инференс и железо

DualPath: новый метод оптимизации пропускной способности памяти при работе LLM

Исследователи представили DualPath — архитектурное решение, устраняющее «узкое горлышко» пропускной способности памяти при инференсе агентных LLM. Метод разделяет потоки данных для обработки весов модели и контекста, что позволяет значительно ускорить генерацию токенов в сценариях с длинным контекстом и частыми обращениями к памяти, характерными для современных автономных агентов.

Основная проблема текущих систем инференса заключается в конкуренции между загрузкой параметров модели и чтением KV-кэша. В агентных системах, где модель постоянно обращается к внешним данным или длинной истории диалога, это приводит к простоям вычислительных ядер GPU. DualPath оптимизирует этот процесс, обеспечивая более эффективное использование доступной полосы пропускания памяти.

Технология фокусируется на динамическом управлении потоками данных, что позволяет снизить задержки при выполнении сложных агентных цепочек. В отличие от стандартных подходов, которые пытаются сжать данные или использовать квантование, DualPath пересматривает сам принцип доступа к памяти, что делает его совместимым с существующими аппаратными ускорителями.

Ключевые факты

DualPath разделяет пути доступа к весам модели и данным KV-кэша для минимизации конфликтов при чтении.
Метод направлен на устранение ограничений пропускной способности памяти, которые становятся критическими при работе с длинным контекстом.
Решение ориентировано на агентные системы, требующие высокой скорости отклика при интенсивном использовании оперативной памяти.
Архитектура позволяет повысить эффективность инференса без необходимости радикального изменения аппаратного обеспечения.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

Hacker News · Инфраструктура для агентов Оптимизация контекста для снижения расхода токенов в ИИ-агентах Разработчики представили решение, позволяющее сократить потребление токенов более чем на 60% при выполнении агентных задач. Основной принцип работы заключается в автоматическом выявлении и удалении избыточного, повторяющегося контекста, который часто накапливается в ходе многошаговых рассуждений или длительных сессий взаимодействия с языковыми моделями. arXiv · Оркестрация агентов The Latent Bridge: архитектура для ИИ-агентов с низким временем отклика Исследователи представили архитектуру The Latent Bridge, решающую проблему задержек при работе ИИ-агентов в динамических средах. Система объединяет медленное логическое планирование (через VLM) с быстрым реактивным управлением, позволяя агентам действовать в режиме реального времени (15 Гц) при сохранении долгосрочного планирования. Метод преодолевает разрыв между качеством рассуждений и скоростью отклика, критически важный для управления компьютерными интерфейсами и играми. Hacker News · Инфраструктура для агентов Оптимизация стоимости и безопасности в агентных рабочих процессах Разработан новый подход к проектированию агентных систем, направленный на снижение затрат на инференс и повышение предсказуемости поведения моделей. Основная идея заключается в переходе от использования тяжелых LLM для выполнения всех этапов задачи к многоуровневой архитектуре, где сложные логические операции делегируются специализированным компактным моделям или жестко заданным алгоритмическим модулям. Hacker News · Инфраструктура для агентов Fused Agent Kernel: оптимизация инференса для ИИ-агентов Проект Fused Agent Kernel (FAK) представляет собой специализированный набор инструментов для ускорения работы ИИ-агентов. Разработчики сфокусировались на оптимизации вычислительных ядер, которые отвечают за выполнение агентных задач, что позволило добиться четырехкратного прироста производительности на стандартных бенчмарках по сравнению с базовыми реализациями. arXiv · Инфраструктура для агентов UltraQuant: оптимизация KV-кэша до 4 бит для работы с длинным контекстом Исследователи представили метод UltraQuant, направленный на решение проблемы нехватки памяти при работе с длинными контекстами в ИИ-агентах. Основная нагрузка в таких системах ложится на KV-кэш (Key-Value cache), который хранит промежуточные состояния модели. Использование 4-битного квантования позволяет значительно сократить объем занимаемой видеопамяти, сохраняя при этом точность генерации текста. Hacker News · Инфраструктура для агентов Субмодулярный отбор контекста для оптимизации работы LLM-агентов Исследователи представили метод субмодулярного отбора контекста, который позволяет динамически выбирать наиболее релевантную информацию для LLM-агентов. Этот подход выступает в роли подключаемого модуля, оптимизирующего подачу данных в контекстное окно. Технология позволяет агентам эффективнее обрабатывать длинные последовательности, снижая количество избыточных токенов и повышая точность ответов при работе со сложными задачами. arXiv · Инфраструктура для агентов Kamera: оптимизация KV-кэша для мультимодальных агентов Исследователи представили метод Kamera, решающий проблему избыточных вычислений при работе мультимодальных моделей с длинным контекстом. В текущих архитектурах агенты вынуждены повторно кодировать одни и те же визуальные данные — кадры видео или скриншоты интерфейсов — при каждом сдвиге контекстного окна. Стандартные механизмы кэширования префиксов не справляются с этой задачей, так как они привязаны к фиксированной позиции токенов, что делает невозможным эффективное повторное использование данных при итеративном анализе. Hacker News · Память и RAG Causal Graph Memory: новый подход к управлению контекстом в LLM Разработан метод Causal Graph Memory, направленный на оптимизацию работы с длинным контекстом в больших языковых моделях. В отличие от стандартных подходов, где стоимость токенов растет пропорционально длине сессии, данная архитектура использует структуру причинно-следственного графа для хранения и извлечения информации. Это позволяет поддерживать фиксированную стоимость обработки токенов независимо от продолжительности диалога или объема накопленных данных. MarkTechPost · Инференс и железо DFlash ускоряет генерацию LLM до 15 раз за счет параллельного предсказания блоков токенов Исследователи из Калифорнийского университета в Сан-Диего представили метод DFlash, который радикально ускоряет инференс LLM. Вместо последовательного предсказания токенов модель использует легковесную диффузионную архитектуру для генерации целых блоков токенов параллельно. Технология обеспечивает до 6-кратного ускорения на стандартных GPU и до 15-кратного прироста пропускной способности на архитектуре NVIDIA Blackwell при сохранении точности ответов. arXiv · Машинное обучение Мультиагентные системы для многокритериальной оптимизации в динамических средах Исследователи представили новый подход к решению задач оптимизации в вычислительных и сетевых системах с помощью мультиагентных систем. Традиционные методы обучения с подкреплением часто сводят сложные задачи к минимизации единого скалярного вознаграждения, используя штрафные коэффициенты для учета ограничений. Однако такой подход оказывается недостаточно гибким в динамических условиях, где требования к производительности и затратам постоянно меняются.

← Все материалы