Исследователи представили метод Complementary Attention Head Pruning (CAHP), направленный на повышение эффективности архитектуры Transformer. Основная проблема современных LLM заключается в избыточном количестве параметров, что затрудняет их развертывание на устройствах с ограниченными вычислительными ресурсами. Существующие подходы к сжатию моделей часто опираются на градиентный анализ важности весов или стохастическое гейтирование, которые не всегда обеспечивают оптимальный баланс между скоростью работы и качеством генерации.
Метод CAHP фокусируется на селективном удалении «голов» внимания (attention heads), которые вносят минимальный вклад в итоговый результат. В отличие от традиционных техник, этот подход учитывает взаимодополняемость оставшихся компонентов сети, что позволяет сохранять высокую точность модели даже при значительном сокращении её объема. Авторы работы продемонстрировали, что такой способ прунинга позволяет эффективнее распределять ресурсы внутри слоев, минимизируя потери производительности при инференсе.
Результаты экспериментов показывают, что предложенный алгоритм превосходит текущие аналоги по показателям сжатия без существенного снижения метрик качества на стандартных бенчмарках. Технология позволяет адаптировать крупные языковые модели для работы на периферийных устройствах и локальных серверах, снижая требования к оперативной памяти и ускоряя время отклика. Это решение открывает новые возможности для оптимизации нейросетей в условиях ограниченного аппаратного обеспечения.