Исследователи представили архитектуру CARVE, решающую проблему неэффективного управления памятью в современных рекуррентных моделях с линейным вниманием. В отличие от существующих решений, которые принимают решение об удалении данных без учета содержимого памяти, CARVE внедряет механизм «осознанного» стирания. Это позволяет модели более эффективно использовать параметры и улучшить качество обработки длинных последовательностей данных при сохранении высокой скорости вычислений.

Основная проблема текущих архитектур, таких как GDN-2, заключается в «слепом» гейтинге: механизм забывания реагирует только на входящий токен, игнорируя контекст уже сохраненной информации. Это приводит к избыточному расходу параметров и потере важных данных при обновлении состояния. Авторы CARVE пересмотрели структуру дельта-правила, интегрировав информацию о текущем состоянии памяти в процесс формирования маски стирания.

Данный метод позволяет оптимизировать работу с памятью в задачах, требующих обработки контекста большого объема. За счет устранения избыточности в проекциях значений, архитектура демонстрирует более высокую плотность хранения информации на единицу параметров. Это открывает путь к созданию более компактных и производительных моделей, способных конкурировать с трансформерами в задачах с длинным контекстом, сохраняя при этом преимущества рекуррентных вычислений.

Ключевые факты

  • Архитектура CARVE (Content-Aware Recurrent with Value Efficiency) оптимизирует управление памятью в моделях с линейным вниманием.
  • Устранен дефект «слепого» гейтинга, при котором механизм забывания не анализировал содержимое памяти перед обновлением.
  • Метод позволяет сократить потери параметров при масштабировании проекций значений, повышая общую эффективность модели.
  • Разработка направлена на улучшение производительности рекуррентных архитектур при работе с длинными последовательностями токенов.