arXiv · 25.06.2026 ·Исследования и наука

CARVE: новый подход к повышению эффективности рекуррентных моделей

Исследователи представили архитектуру CARVE, решающую проблему неэффективного управления памятью в современных рекуррентных моделях с линейным вниманием. В отличие от существующих решений, которые принимают решение об удалении данных без учета содержимого памяти, CARVE внедряет механизм «осознанного» стирания. Это позволяет модели более эффективно использовать параметры и улучшить качество обработки длинных последовательностей данных при сохранении высокой скорости вычислений.

Основная проблема текущих архитектур, таких как GDN-2, заключается в «слепом» гейтинге: механизм забывания реагирует только на входящий токен, игнорируя контекст уже сохраненной информации. Это приводит к избыточному расходу параметров и потере важных данных при обновлении состояния. Авторы CARVE пересмотрели структуру дельта-правила, интегрировав информацию о текущем состоянии памяти в процесс формирования маски стирания.

Данный метод позволяет оптимизировать работу с памятью в задачах, требующих обработки контекста большого объема. За счет устранения избыточности в проекциях значений, архитектура демонстрирует более высокую плотность хранения информации на единицу параметров. Это открывает путь к созданию более компактных и производительных моделей, способных конкурировать с трансформерами в задачах с длинным контекстом, сохраняя при этом преимущества рекуррентных вычислений.

Ключевые факты

Архитектура CARVE (Content-Aware Recurrent with Value Efficiency) оптимизирует управление памятью в моделях с линейным вниманием.
Устранен дефект «слепого» гейтинга, при котором механизм забывания не анализировал содержимое памяти перед обновлением.
Метод позволяет сократить потери параметров при масштабировании проекций значений, повышая общую эффективность модели.
Разработка направлена на улучшение производительности рекуррентных архитектур при работе с длинными последовательностями токенов.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

Hacker News · Инференс и железо Оптимизация потребления VRAM через пропуск тайлов в архитектурах без Softmax Разработчики представили архитектурное решение для моделей с длинным контекстом, позволяющее существенно снизить требования к видеопамяти. Метод основан на использовании специализированных ядер (kernels) для пропуска вычислений в определенных сегментах данных, что исключает необходимость выполнения операции Softmax на каждом этапе обработки последовательности. Hacker News · Инфраструктура для агентов Инструменты профилирования CUDA для оптимизации инференса в продакшене Разработчики систем машинного обучения получили новый подход к мониторингу производительности GPU при работе с нейросетями в реальном времени. Основная сложность при запуске моделей в продакшене заключается в поиске «узких мест», которые возникают на уровне низкоуровневых операций CUDA. Традиционные инструменты часто требуют остановки процессов или сложной настройки окружения, что делает их непригодными для высоконагруженных систем. arXiv · Машинное обучение Posterior Refinement: новый метод ускорения генерации текста в неавторегрессионных моделях Исследователи представили метод Posterior Refinement, решающий проблему низкой эффективности неавторегрессионных языковых моделей. Новый подход использует Any-Order Flow Maps для итеративного уточнения текста, позволяя моделям критиковать и перегенерировать произвольные фрагменты токенов одновременно. Это устраняет ошибки факторизации, характерные для маскированных диффузионных моделей, и значительно повышает качество генерации при сохранении высокой скорости работы. arXiv · Машинное обучение Новый метод адаптивного обучения для работы с графовыми данными Исследователи представили метод Adaptive Recurrent Message Passing, который решает проблему несовместимости предобученных моделей с графовыми структурами данных. Традиционные архитектуры часто оказываются неэффективными при работе с графами из-за фиксированной структуры нейронных сетей, которая не учитывает динамическую природу связей между узлами. Новый подход позволяет моделям адаптироваться непосредственно в процессе вычислений, используя рекуррентную передачу сообщений. Hacker News · Инфраструктура для агентов Deltatensors: новый способ хранения дообученных весов моделей через сжатые дельты Библиотека Deltatensors предлагает оптимизированный подход к хранению и распространению дообученных весов нейросетей. Вместо сохранения полных копий модели, инструмент вычисляет и сжимает разницу (дельты) между базовыми весами и весами после fine-tuning. Это позволяет значительно сократить объем дискового пространства, необходимого для версионирования и обмена специализированными моделями в агентных системах и пайплайнах разработки. Hacker News · Инференс и железо Как кеш ключ-значение влияет на VRAM при работе с длинным контекстом Работа с длинными контекстами в ИИ-моделях — одна из ключевых задач при разработке агентов. Однако увеличение длины контекста приводит к росту потребления VRAM, что ограничивает возможности инференса на доступном железе. В статье разбирается, как именно кеш ключ-значение (KV cache) влияет на использование памяти и какие стратегии позволяют оптимизировать этот процесс. The latest research from Google · Исследования и наука Исследование Google: как цепочки рассуждений улучшают извлечение знаний из LLM Исследователи Google представили метод, который значительно повышает точность извлечения фактов из внутренней памяти больших языковых моделей. Вместо прямого запроса модель сначала генерирует цепочку рассуждений, что позволяет ей эффективнее активировать параметрические знания. Этот подход помогает преодолеть ограничения стандартных моделей при ответе на вопросы, требующие глубокого контекстного понимания или редких данных. Hacker News · Инференс и железо Решение проблемы утечек VRAM при работе с LLM Разработчики представили решение проблемы «призрачной» видеопамяти (VRAM), которая часто остается занятой после завершения работы с моделями или некорректного закрытия процессов. Инструмент позволяет принудительно освобождать ресурсы GPU, предотвращая ошибки нехватки памяти и необходимость перезагрузки системы при интенсивном тестировании или развертывании локальных LLM на потребительском железе. Hacker News · Инференс и железо DualPath: новый метод оптимизации пропускной способности памяти при работе LLM Исследователи представили DualPath — архитектурное решение, устраняющее «узкое горлышко» пропускной способности памяти при инференсе агентных LLM. Метод разделяет потоки данных для обработки весов модели и контекста, что позволяет значительно ускорить генерацию токенов в сценариях с длинным контекстом и частыми обращениями к памяти, характерными для современных автономных агентов. MarkTechPost · Инфраструктура для агентов Методы сжатия KV-кэша: обзор подходов TurboQuant, OSCAR и EpiCache При работе с длинным контекстом в современных языковых моделях объем KV-кэша (Key-Value cache) часто превышает размер весов самой модели, создавая критическое узкое место в оперативной памяти. Для решения этой проблемы активно развиваются методы сжатия, среди которых выделяются три ключевых подхода: TurboQuant, OSCAR и EpiCache. Каждый из них предлагает свой способ оптимизации хранения данных, позволяя эффективно обрабатывать массивы токенов без существенной потери точности генерации.

← Все материалы