Исследователи представили фреймворк, позволяющий эффективно объединять веса независимо обученных нейронных сетей через линейную связность мод (Linear Mode Connectivity, LMC). Ранее подобные методы были ограничены в масштабируемости, так как оптимизация пути интерполяции проводилась только от одной конечной точки модели. Новый подход снимает эти ограничения, позволяя применять слияние к крупным предобученным трансформерам с миллиардами параметров.

Технология LMC открывает путь к созданию ансамблей моделей без необходимости их совместного дообучения или использования больших объемов данных для выравнивания весов. Авторы работы продемонстрировали, что предложенный метод позволяет сохранять функциональные возможности исходных моделей при их объединении, что критически важно для создания специализированных систем на базе нескольких предобученных архитектур.

Данное исследование решает проблему несовместимости весов в глубоких нейронных сетях, которая до сих пор препятствовала широкому внедрению методов слияния в индустрии. Масштабируемость решения позволяет комбинировать знания из разных доменов, накопленные в различных моделях, в единую структуру с минимальными вычислительными затратами по сравнению с классическим дообучением или дистилляцией.