Hacker News · 27.06.2026 ·Инфраструктура для агентов

KV-psi: управление кэшем LLM через метрики Linux PSI

Проект KV-psi предлагает новый подход к оптимизации работы LLM, используя механизм Linux Pressure Stall Information (PSI) для динамического управления KV-кэшем. Инструмент отслеживает нагрузку на ресурсы системы в реальном времени и автоматически урезает кэш при возникновении дефицита памяти, предотвращая критические сбои и замедления при выполнении инференса на локальных вычислительных узлах.

Традиционные методы управления памятью в LLM часто полагаются на статические лимиты, что приводит либо к неэффективному использованию ресурсов, либо к ошибкам Out-of-Memory (OOM). Использование PSI позволяет системе «чувствовать» реальное давление на подсистему памяти и CPU, адаптируя размер кэша ключей и значений (KV cache) в зависимости от текущей интенсивности запросов и доступности аппаратных мощностей.

Такой подход особенно актуален для сред с ограниченными ресурсами, где запуск моделей требует тонкой настройки баланса между контекстным окном и стабильностью работы сервера. Интеграция PSI позволяет автоматизировать процесс вытеснения данных из кэша, обеспечивая более предсказуемое поведение системы под нагрузкой и повышая общую пропускную способность инференс-серверов.

Ключевые факты

KV-psi использует встроенные метрики ядра Linux PSI для мониторинга задержек доступа к памяти.
Инструмент динамически корректирует размер KV-кэша, предотвращая принудительное завершение процессов системой (OOM Killer).
Решение ориентировано на оптимизацию инференса LLM в условиях ограниченных аппаратных ресурсов.
Реализация позволяет минимизировать влияние фоновых процессов на производительность генерации текста.

Источник: Hacker News

Обсудить с ИИ

Похожие материалы

arXiv · Инфраструктура для агентов Новый метод сжатия KV-кэша для LLM снижает нагрузку на память Исследователи предложили метод AnchorKV для сжатия ключевых значений (KV) в кэше языковых моделей. Это решение направлено на уменьшение нагрузки на память и энергопотребление при инференсе, что особенно актуально для крупных языковых моделей (LLM). arXiv · Инфраструктура для агентов UltraQuant: оптимизация KV-кэша до 4 бит для работы с длинным контекстом Исследователи представили метод UltraQuant, направленный на решение проблемы нехватки памяти при работе с длинными контекстами в ИИ-агентах. Основная нагрузка в таких системах ложится на KV-кэш (Key-Value cache), который хранит промежуточные состояния модели. Использование 4-битного квантования позволяет значительно сократить объем занимаемой видеопамяти, сохраняя при этом точность генерации текста. Hacker News · Инфраструктура для агентов Оптимизация контекста и кэширование в ИИ-системах Эффективная работа с контекстом остается ключевым фактором производительности при развертывании LLM. Основная задача заключается в минимизации избыточных вычислений при обработке длинных последовательностей, где значительная часть данных повторяется от запроса к запросу. Использование механизмов кэширования позволяет сохранять промежуточные состояния внимания (KV-кэш) для неизменяемых фрагментов промпта, что существенно снижает время отклика и затраты на инференс. MarkTechPost · Инфраструктура для агентов Методы сжатия KV-кэша: обзор подходов TurboQuant, OSCAR и EpiCache При работе с длинным контекстом в современных языковых моделях объем KV-кэша (Key-Value cache) часто превышает размер весов самой модели, создавая критическое узкое место в оперативной памяти. Для решения этой проблемы активно развиваются методы сжатия, среди которых выделяются три ключевых подхода: TurboQuant, OSCAR и EpiCache. Каждый из них предлагает свой способ оптимизации хранения данных, позволяя эффективно обрабатывать массивы токенов без существенной потери точности генерации. Hacker News · Инференс и железо Решение проблемы утечек VRAM при работе с LLM Разработчики представили решение проблемы «призрачной» видеопамяти (VRAM), которая часто остается занятой после завершения работы с моделями или некорректного закрытия процессов. Инструмент позволяет принудительно освобождать ресурсы GPU, предотвращая ошибки нехватки памяти и необходимость перезагрузки системы при интенсивном тестировании или развертывании локальных LLM на потребительском железе. Hacker News · Инференс и железо DualPath: новый метод оптимизации пропускной способности памяти при работе LLM Исследователи представили DualPath — архитектурное решение, устраняющее «узкое горлышко» пропускной способности памяти при инференсе агентных LLM. Метод разделяет потоки данных для обработки весов модели и контекста, что позволяет значительно ускорить генерацию токенов в сценариях с длинным контекстом и частыми обращениями к памяти, характерными для современных автономных агентов. arXiv · Инфраструктура для агентов CrossPool: оптимизация памяти при обслуживании множества MoE-моделей Исследователи представили CrossPool — метод эффективного обслуживания множества разреженных MoE-моделей (Mixture-of-Experts). Решение разделяет управление весами моделей и KV-кэшем, что позволяет динамически распределять ресурсы памяти GPU. Это минимизирует потери при работе с «холодными» моделями, которые редко достигают пиковой нагрузки, и значительно повышает плотность размещения моделей на одном сервере. Hacker News · Инфраструктура для агентов PrismLib: семантическое кэширование для оптимизации расходов на LLM PrismLib — это библиотека для семантического кэширования и кластеризации запросов к LLM, предназначенная для снижения затрат на токены. Инструмент перехватывает входящие запросы и проверяет их на семантическое сходство с уже выполненными задачами в кэше, позволяя возвращать готовые ответы без повторного обращения к дорогостоящим API моделей. Hacker News · Инференс и железо VoltanaLLM: оптимизация энергопотребления при инференсе больших языковых моделей Исследователи представили VoltanaLLM — систему для повышения энергоэффективности при развертывании больших языковых моделей. Решение оптимизирует процесс инференса, снижая потребление электроэнергии без существенной потери точности вычислений. Технология ориентирована на серверные инфраструктуры, где затраты на питание и охлаждение GPU становятся критическим фактором при масштабировании агентных систем и сложных LLM-приложений. Hacker News · Инфраструктура для агентов Vlk: инструмент для управления долговременной памятью ИИ-агентов в IDE Проект Vlk представляет собой решение для организации постоянной рабочей памяти ИИ-агентов, интегрированных в среду разработки. Основная задача инструмента — оптимизация контекстного окна за счет автоматического удаления неактуальных данных. Система анализирует историю взаимодействия и состояние проекта, позволяя агенту самостоятельно «очищать» память от устаревшей информации, сохраняя при этом доступ к критически важным контекстным связям.

← Все материалы