arXiv · 22.06.2026 ·Машинное обучение

Новый метод масштабируемого слияния предобученных трансформеров

Исследователи представили фреймворк, позволяющий эффективно объединять веса независимо обученных нейронных сетей через линейную связность мод (Linear Mode Connectivity, LMC). Ранее подобные методы были ограничены в масштабируемости, так как оптимизация пути интерполяции проводилась только от одной конечной точки модели. Новый подход снимает эти ограничения, позволяя применять слияние к крупным предобученным трансформерам с миллиардами параметров.

Технология LMC открывает путь к созданию ансамблей моделей без необходимости их совместного дообучения или использования больших объемов данных для выравнивания весов. Авторы работы продемонстрировали, что предложенный метод позволяет сохранять функциональные возможности исходных моделей при их объединении, что критически важно для создания специализированных систем на базе нескольких предобученных архитектур.

Данное исследование решает проблему несовместимости весов в глубоких нейронных сетях, которая до сих пор препятствовала широкому внедрению методов слияния в индустрии. Масштабируемость решения позволяет комбинировать знания из разных доменов, накопленные в различных моделях, в единую структуру с минимальными вычислительными затратами по сравнению с классическим дообучением или дистилляцией.

Источник: arXiv

Похожие материалы

Hacker News · Машинное обучение Новый подход к законам масштабирования может изменить обучение ИИ-моделей Исследователи из Стэнфордского университета предложили новый подход к законам масштабирования, который может существенно повлиять на процесс обучения искусственных нейронных сетей. Традиционные законы масштабирования описывают, как увеличение размера модели и объёма данных влияет на её производительность. Однако новый метод позволяет более точно предсказывать, как изменения в архитектуре модели и данных повлияют на её точность и эффективность. arXiv · Машинное обучение Метод динамического объединения моделей без дообучения Исследователи представили новый подход к объединению нескольких специализированных нейросетевых экспертов в одну многозадачную модель. Традиционные методы слияния весов часто сталкиваются с проблемой интерференции параметров, когда знания одной модели конфликтуют с другой, что приводит к снижению точности по сравнению с исходными узкоспециализированными версиями. arXiv · Машинное обучение Трансформеры для решения уравнений на сложных геометриях Исследователи из MIT и других ведущих университетов представили новый подход к использованию трансформеров для решения задач, связанных с дифференциальными уравнениями на сложных геометриях. Традиционные методы, основанные на нейронных операторах, ограничены фиксированным размером области, что затрудняет их применение в реальных сценариях, где размеры могут варьироваться. arXiv · Машинное обучение Новый метод прунинга для оптимизации Transformer-моделей Исследователи представили метод Complementary Attention Head Pruning (CAHP), направленный на повышение эффективности архитектуры Transformer. Основная проблема современных LLM заключается в избыточном количестве параметров, что затрудняет их развертывание на устройствах с ограниченными вычислительными ресурсами. Существующие подходы к сжатию моделей часто опираются на градиентный анализ важности весов или стохастическое гейтирование, которые не всегда обеспечивают оптимальный баланс между скоростью работы и качеством генерации. arXiv · Машинное обучение Новый взгляд на оптимизатор Muown для обучения трансформеров Исследователи проанализировали математические принципы работы оптимизатора Muown, который активно применяется для предварительного обучения трансформеров. Этот метод разделяет весовые матрицы на два компонента: амплитуды строк и ненормализованное направление. Для обновления амплитуд используется алгоритм Adam, а для направления — оптимизатор Muon. Такая архитектура позволяет эффективно управлять процессом обучения, обеспечивая высокую стабильность и скорость сходимости моделей. arXiv · Исследования и наука Интерпретация механизмов внимания через синтез программ Исследователи представили новый метод интерпретации нейронных сетей, который позволяет заменить непрозрачные вычисления моделей на понятные человеку символьные описания. В центре внимания оказались механизмы внимания (attention heads) в трансформерах, которые традиционно считаются «черным ящиком» из-за сложности их внутренних операций. Hacker News · Исследования и наука Next-Latent Prediction: новый подход к обучению компактных моделей мира Исследователи представили метод Next-Latent Prediction (NLP), который меняет подход к обучению трансформеров для моделирования динамических сред. В отличие от традиционных моделей, предсказывающих будущие токены в пространстве пикселей или дискретных состояний, этот метод фокусируется на прогнозировании скрытых представлений (латентных векторов). Такой подход позволяет модели сжимать информацию о визуальных и физических процессах, отсекая избыточные детали и концентрируясь на ключевых закономерностях среды. arXiv · Машинное обучение Улучшение многоязычного логического вывода через управляемое слияние моделей Исследователи представили новый метод объединения нейросетевых архитектур, направленный на повышение качества логического вывода в многоязычных задачах. Техника слияния моделей позволяет эффективно комбинировать способности специализированных систем, отвечающих за глубокое рассуждение, с возможностями моделей, обученных на широком спектре языков. Основная сложность подобных подходов заключается в конфликтах между весами исходных моделей, которые часто приводят к снижению точности итогового решения. arXiv · Машинное обучение Новый метод оптимизируемых линейных релаксаций для функций активации Исследователи представили новый подход к формальной верификации нейронных сетей, основанный на использовании оптимизируемых линейных релаксаций для функций активации. Традиционные методы верификации, критически важные для обеспечения безопасности моделей в ответственных областях, часто требуют создания специализированных релаксаций вручную для каждой функции активации. Это ограничивает масштабируемость и затрудняет адаптацию к современным архитектурам. arXiv · Инфраструктура для агентов FoMoE: новый подход к обучению MoE-моделей через федерацию экспертов Исследователи представили архитектуру FoMoE (Federation of Mixture-of-Experts), которая решает проблему жесткой привязки параметров модели к вычислительной инфраструктуре. Традиционные методы обучения крупных языковых моделей требуют использования массивов тесно связанных ускорителей, что ограничивает масштабируемость. Новый подход позволяет распределять экспертов в составе MoE-архитектуры между независимыми вычислительными узлами, снимая барьер «полной репликации» весов модели на каждом устройстве.

← Все материалы