Hacker News · 23.06.2026 ·Машинное обучение

Метод Zero Weights Language Model для оптимизации весов нейросетей

Исследователи представили метод MSE-GLM (Mean Squared Error General Language Model), направленный на радикальное сокращение количества активных параметров в языковых моделях. Основная идея заключается в принудительном обнулении весов, которые вносят минимальный вклад в итоговый результат предсказания, без существенной потери точности модели. Этот подход позволяет значительно уменьшить размер итоговых файлов весов, упрощая хранение и ускоряя загрузку нейросетей.

В основе метода лежит оптимизация на базе среднеквадратичной ошибки, которая позволяет «вырезать» избыточные связи в архитектуре трансформера. В отличие от стандартных методов прунинга, требующих длительного дообучения, MSE-GLM фокусируется на математическом анализе значимости каждого веса в процессе инференса. Это позволяет достичь высокой степени разреженности модели, сохраняя при этом её способность к генерации связного текста и выполнению логических задач.

Результаты экспериментов показывают, что использование разреженных весов позволяет снизить требования к оперативной памяти при запуске моделей на потребительском оборудовании. Технология открывает новые возможности для запуска более мощных языковых моделей на устройствах с ограниченными вычислительными ресурсами, минимизируя задержки при обработке запросов. Метод представляет собой значимый шаг в сторону повышения эффективности работы с большими моделями в условиях ограниченной инфраструктуры.

Источник: Hacker News

Похожие материалы

arXiv · Исследования и наука Tapered Language Models: оптимизация архитектуры через неравномерное распределение параметров Исследователи представили концепцию Tapered Language Models, предлагающую пересмотреть стандартную архитектуру нейросетей. Традиционные модели, включая трансформеры, используют стек идентичных слоев с равномерным распределением параметров по всей глубине сети. Авторы работы доказывают, что такой подход избыточен, так как вклад слоев в итоговый результат неоднороден: ранние и поздние слои выполняют разные вычислительные задачи. Hacker News · Исследования и наука Технологический прорыв DeepSeek в архитектуре нейросетей Китайская исследовательская лаборатория DeepSeek представила архитектуру, которая существенно меняет подход к обучению и работе крупных языковых моделей. В основе решения лежит использование архитектуры Mixture-of-Experts (MoE) с глубокой оптимизацией процесса активации параметров. Вместо того чтобы задействовать всю нейросеть целиком для каждого запроса, система активирует лишь малую часть весов, что позволяет радикально снизить вычислительные затраты при сохранении высокой точности ответов. arXiv · Машинное обучение Новый метод прунинга для оптимизации Transformer-моделей Исследователи представили метод Complementary Attention Head Pruning (CAHP), направленный на повышение эффективности архитектуры Transformer. Основная проблема современных LLM заключается в избыточном количестве параметров, что затрудняет их развертывание на устройствах с ограниченными вычислительными ресурсами. Существующие подходы к сжатию моделей часто опираются на градиентный анализ важности весов или стохастическое гейтирование, которые не всегда обеспечивают оптимальный баланс между скоростью работы и качеством генерации. NVIDIA Technical Blog · Машинное обучение Как оптимизировать трансформеры для обучения с низкой точностью Трансформеры лежат в основе многих современных языковых и генеративных моделей. С ростом их размера увеличивается и потребление вычислительных ресурсов, особенно GPU. NVIDIA предложила методы оптимизации для обучения моделей с низкой точностью, что позволяет снизить нагрузку на оборудование. arXiv · Машинное обучение Метод MAST для точечного удаления нежелательных навыков рассуждения в LLM Исследователи представили метод MAST (Mechanism-Aligned Selective Targeting), предназначенный для избирательного удаления специфических паттернов рассуждения, привитых моделям через обучение с подкреплением (RLVR). Традиционные подходы к «забыванию» (unlearning) часто приводят к деградации общих способностей модели из-за полнопараметрических обновлений. Новый метод позволяет изолировать и корректировать только те веса, которые отвечают за конкретные логические цепочки, минимизируя побочный ущерб для базовых знаний модели. arXiv · Машинное обучение Геометрия собственных чисел в анализе семантических атак на ИИ Исследователи представили новый теоретический подход к изучению уязвимостей моделей классификации, основанный на анализе геометрии собственных чисел. Работа фокусируется на проблеме семантических состязательных атак, при которых незначительные перефразирования текста приводят к изменению предсказаний модели, несмотря на сохранение исходного смысла и близость векторных представлений. Hacker News · Прогнозы и тренды Экологический след обучения крупных языковых моделей Обучение современных нейросетей требует значительных вычислительных мощностей, что напрямую влияет на потребление электроэнергии и выбросы углекислого газа. Основная часть энергозатрат приходится на работу дата-центров, где тысячи графических процессоров работают непрерывно в течение недель или месяцев. Эффективность этого процесса зависит от архитектуры модели, используемых алгоритмов оптимизации и географического расположения серверов, так как источники энергии в разных регионах имеют разный углеродный след. Hacker News · Модели и релизы Как мелкие модели могут конкурировать с крупными Исследователи из DeepClause предложили метод, позволяющий мелким языковым моделям демонстрировать производительность, сопоставимую с крупными аналогами. В статье на Substack они объясняют, что ключевым фактором является не количество параметров, а эффективность архитектуры и стратегии обучения. arXiv · Машинное обучение Новый метод масштабируемого слияния предобученных трансформеров Исследователи представили фреймворк, позволяющий эффективно объединять веса независимо обученных нейронных сетей через линейную связность мод (Linear Mode Connectivity, LMC). Ранее подобные методы были ограничены в масштабируемости, так как оптимизация пути интерполяции проводилась только от одной конечной точки модели. Новый подход снимает эти ограничения, позволяя применять слияние к крупным предобученным трансформерам с миллиардами параметров. arXiv · Инференс и железо Четырехуровневая архитектура оптимизации инференса больших моделей Исследователи представили новую методологию оптимизации инференса для крупномасштабных языковых моделей, сфокусированную на операциях с токенами. Основная цель разработки — снижение стоимости вычислений и повышение стабильности работы сервисов при масштабировании. Предложенная архитектура систематизирует подходы к ускорению генерации текста, объединяя программные и аппаратные уровни взаимодействия.

← Все материалы