Исследователи представили метод MSE-GLM (Mean Squared Error General Language Model), направленный на радикальное сокращение количества активных параметров в языковых моделях. Основная идея заключается в принудительном обнулении весов, которые вносят минимальный вклад в итоговый результат предсказания, без существенной потери точности модели. Этот подход позволяет значительно уменьшить размер итоговых файлов весов, упрощая хранение и ускоряя загрузку нейросетей.
В основе метода лежит оптимизация на базе среднеквадратичной ошибки, которая позволяет «вырезать» избыточные связи в архитектуре трансформера. В отличие от стандартных методов прунинга, требующих длительного дообучения, MSE-GLM фокусируется на математическом анализе значимости каждого веса в процессе инференса. Это позволяет достичь высокой степени разреженности модели, сохраняя при этом её способность к генерации связного текста и выполнению логических задач.
Результаты экспериментов показывают, что использование разреженных весов позволяет снизить требования к оперативной памяти при запуске моделей на потребительском оборудовании. Технология открывает новые возможности для запуска более мощных языковых моделей на устройствах с ограниченными вычислительными ресурсами, минимизируя задержки при обработке запросов. Метод представляет собой значимый шаг в сторону повышения эффективности работы с большими моделями в условиях ограниченной инфраструктуры.