arXiv · 02.07.2026 ·Машинное обучение

HOLA: архитектура с «гиппокампом» для улучшения памяти в линейных трансформерах

Исследователи представили архитектуру HOLA (Hippocampal Linear Attention), решающую проблему потери данных в моделях с линейным вниманием и state-space моделях. В отличие от стандартных подходов, сжимающих контекст в фиксированное состояние, HOLA дополняет систему механизмом «гиппокампа», который сохраняет точные ассоциации ключ-значение, предотвращая перезапись ранних фактов и значительно повышая точность извлечения информации из длинных последовательностей.

Линейное внимание и state-space модели (SSM) обеспечивают высокую скорость инференса и O(1) сложность по памяти, однако их основным недостатком является «забывчивость». При накоплении большого объема данных ранние токены вытесняются из скрытого состояния, что приводит к деградации качества при поиске конкретных фактов (задача needle-in-a-haystack). Авторы статьи вдохновлялись теорией дополняющих систем обучения (Complementary Learning Systems), где мозг использует гиппокамп для быстрого запоминания эпизодов и неокортекс для постепенной консолидации знаний.

HOLA интегрирует специализированный модуль памяти, который работает параллельно с основным рекуррентным состоянием. Этот модуль позволяет модели обращаться к «сырым» данным, которые иначе были бы потеряны при сжатии. В результате архитектура сохраняет преимущества линейной сложности, но при этом демонстрирует способность к точному воспроизведению редких или ранних ассоциаций, что критически важно для работы с длинными документами и сложными контекстами.

Ключевые факты

Архитектура HOLA (Hippocampal Linear Attention) вводит механизм внешней памяти для моделей с линейным вниманием.
Метод решает проблему потери точности при извлечении данных, характерную для моделей с фиксированным размером рекуррентного состояния.
Принцип работы основан на теории Complementary Learning Systems, имитирующей разделение функций памяти в мозге.
Решение позволяет сохранять O(1) сложность инференса, устраняя при этом критические ошибки при поиске специфических фактов в длинных последовательностях.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Память и RAG AutoMem: автоматизация управления памятью в LLM через метакогнитивные навыки Исследователи представили AutoMem — фреймворк, обучающий языковые модели самостоятельно управлять своей памятью как когнитивным навыком. В отличие от статических RAG-систем, AutoMem наделяет модель способностью решать, какую информацию кодировать, когда извлекать данные и как структурировать знания. Модель получает доступ к файловым операциям как к базовым действиям, что позволяет ей динамически организовывать контекст в процессе выполнения задач. Hacker News · Память и RAG Causal Graph Memory: новый подход к управлению контекстом в LLM Разработан метод Causal Graph Memory, направленный на оптимизацию работы с длинным контекстом в больших языковых моделях. В отличие от стандартных подходов, где стоимость токенов растет пропорционально длине сессии, данная архитектура использует структуру причинно-следственного графа для хранения и извлечения информации. Это позволяет поддерживать фиксированную стоимость обработки токенов независимо от продолжительности диалога или объема накопленных данных. Hacker News · Память и RAG Архитектура долговременной памяти для ИИ-агентов Разработка эффективной памяти для ИИ-агентов требует разделения задачи на три независимых уровня: хранение контекста сессии, извлечение релевантных знаний из базы и управление долгосрочными предпочтениями пользователя. Такой подход позволяет избежать перегрузки контекстного окна модели и обеспечивает стабильность поведения агента при выполнении длительных задач, требующих накопления опыта и обучения на прошлых взаимодействиях. Hacker News · Исследования и наука HRM-Text: новый подход к эффективному дообучению языковых моделей Исследователи представили HRM-Text — метод повышения эффективности предобучения языковых моделей, который выходит за рамки простого увеличения вычислительных мощностей. Авторы предлагают оптимизированный подход к обработке данных и архитектурным изменениям, позволяющий достичь высокой производительности при меньших затратах ресурсов. Это значимый шаг в сторону оптимизации обучения LLM, делающий создание мощных моделей более доступным и экономически оправданным. Lobsters · Исследования и наука Ортогонализация матриц повышает эффективность памяти в рекуррентных моделях Исследователи представили метод ортогонализации матриц весов, который значительно улучшает способность рекуррентных нейронных сетей (RNN) удерживать долгосрочные зависимости. Техника предотвращает затухание градиентов и нестабильность при обучении, позволяя моделям эффективнее сохранять информацию в скрытых состояниях. Это решение предлагает альтернативу архитектурам Transformer, снижая вычислительные затраты при обработке длинных последовательностей данных. The latest research from Google · Исследования и наука Исследование Google: как цепочки рассуждений улучшают извлечение знаний из LLM Исследователи Google представили метод, который значительно повышает точность извлечения фактов из внутренней памяти больших языковых моделей. Вместо прямого запроса модель сначала генерирует цепочку рассуждений, что позволяет ей эффективнее активировать параметрические знания. Этот подход помогает преодолеть ограничения стандартных моделей при ответе на вопросы, требующие глубокого контекстного понимания или редких данных. Hacker News · Инференс и железо Оптимизация Attention для ускорителей AMD MI300X на языке HIP Разработчики представили высокопроизводительное ядро (kernel) для вычисления механизма внимания (Attention), оптимизированное специально под архитектуру графических ускорителей AMD Instinct MI300X. В отличие от большинства существующих решений, требующих написания низкоуровневого кода на ассемблере, данная реализация выполнена на языке HIP (Heterogeneous-compute Interface for Portability). Это значительно упрощает поддержку, отладку и переносимость кода между различными поколениями оборудования AMD, сохраняя при этом высокую скорость работы. arXiv · Исследования и наука CARVE: новый подход к повышению эффективности рекуррентных моделей Исследователи представили архитектуру CARVE, решающую проблему неэффективного управления памятью в современных рекуррентных моделях с линейным вниманием. В отличие от существующих решений, которые принимают решение об удалении данных без учета содержимого памяти, CARVE внедряет механизм «осознанного» стирания. Это позволяет модели более эффективно использовать параметры и улучшить качество обработки длинных последовательностей данных при сохранении высокой скорости вычислений. Hacker News · Память и RAG Концепция агент-ориентированных систем памяти Исследователи представили концепцию агент-ориентированной системы памяти, которая выходит за рамки классического RAG. В отличие от статических векторных баз данных, новая архитектура предлагает динамическое управление контекстом, позволяя ИИ-агентам самостоятельно структурировать, обновлять и извлекать накопленный опыт в зависимости от текущих задач, что критически важно для долгосрочной автономной работы сложных систем. arXiv · Исследования и наука Оптимизация гибридных моделей внимания для работы с длинным контекстом Исследователи представили новый метод оптимизации гибридных моделей внимания, повышающий эффективность обработки длинных контекстов. Вместо использования эвристических подходов для выбора слоев, авторы предложили алгоритмический способ определения того, какие слои должны сохранять полное внимание, а какие — заменяться на линейное. Это позволяет значительно снизить вычислительные затраты при сохранении высокой точности работы трансформеров.

← Все материалы