Исследователи представили архитектуру HOLA (Hippocampal Linear Attention), решающую проблему потери данных в моделях с линейным вниманием и state-space моделях. В отличие от стандартных подходов, сжимающих контекст в фиксированное состояние, HOLA дополняет систему механизмом «гиппокампа», который сохраняет точные ассоциации ключ-значение, предотвращая перезапись ранних фактов и значительно повышая точность извлечения информации из длинных последовательностей.
Линейное внимание и state-space модели (SSM) обеспечивают высокую скорость инференса и O(1) сложность по памяти, однако их основным недостатком является «забывчивость». При накоплении большого объема данных ранние токены вытесняются из скрытого состояния, что приводит к деградации качества при поиске конкретных фактов (задача needle-in-a-haystack). Авторы статьи вдохновлялись теорией дополняющих систем обучения (Complementary Learning Systems), где мозг использует гиппокамп для быстрого запоминания эпизодов и неокортекс для постепенной консолидации знаний.
HOLA интегрирует специализированный модуль памяти, который работает параллельно с основным рекуррентным состоянием. Этот модуль позволяет модели обращаться к «сырым» данным, которые иначе были бы потеряны при сжатии. В результате архитектура сохраняет преимущества линейной сложности, но при этом демонстрирует способность к точному воспроизведению редких или ранних ассоциаций, что критически важно для работы с длинными документами и сложными контекстами.
Ключевые факты
- Архитектура HOLA (Hippocampal Linear Attention) вводит механизм внешней памяти для моделей с линейным вниманием.
- Метод решает проблему потери точности при извлечении данных, характерную для моделей с фиксированным размером рекуррентного состояния.
- Принцип работы основан на теории Complementary Learning Systems, имитирующей разделение функций памяти в мозге.
- Решение позволяет сохранять O(1) сложность инференса, устраняя при этом критические ошибки при поиске специфических фактов в длинных последовательностях.