arXiv · 21.06.2026 ·Машинное обучение

Метод динамического объединения моделей без дообучения

Исследователи представили новый подход к объединению нескольких специализированных нейросетевых экспертов в одну многозадачную модель. Традиционные методы слияния весов часто сталкиваются с проблемой интерференции параметров, когда знания одной модели конфликтуют с другой, что приводит к снижению точности по сравнению с исходными узкоспециализированными версиями.

Предложенный метод использует классификацию задач без необходимости дополнительного обучения (training-free). Система динамически определяет тип входящего запроса и активирует только те компоненты объединенной модели, которые наиболее эффективны для решения конкретной задачи. Это позволяет избежать негативного влияния параметров, не относящихся к текущему контексту, и сохранить производительность на уровне отдельных экспертов.

Технология опирается на механизм маршрутизации, который распределяет нагрузку между частями модели в режиме реального времени. Такой подход упрощает развертывание сложных систем, так как избавляет от необходимости хранить и поддерживать множество отдельных моделей для разных задач, предлагая более компактное и эффективное решение для многозадачных сценариев.

Источник: arXiv

Похожие материалы

arXiv · Машинное обучение Новый подход к моделированию динамических систем через явные структуры Исследователи представили альтернативный подход к обучению динамических систем, который отходит от использования универсальных нелинейных аппроксиматоров. Вместо наращивания сложности нейронных сетей для захвата сложных паттернов, авторы предлагают архитектуру, где моделирующая способность системы определяется её внутренней структурой. Такой метод позволяет эффективнее описывать поведение динамических процессов, опираясь на математически обоснованные взаимодействия, а не на избыточную нелинейность. arXiv · Машинное обучение Улучшение многоязычного логического вывода через управляемое слияние моделей Исследователи представили новый метод объединения нейросетевых архитектур, направленный на повышение качества логического вывода в многоязычных задачах. Техника слияния моделей позволяет эффективно комбинировать способности специализированных систем, отвечающих за глубокое рассуждение, с возможностями моделей, обученных на широком спектре языков. Основная сложность подобных подходов заключается в конфликтах между весами исходных моделей, которые часто приводят к снижению точности итогового решения. arXiv · Машинное обучение Новый метод масштабируемого слияния предобученных трансформеров Исследователи представили фреймворк, позволяющий эффективно объединять веса независимо обученных нейронных сетей через линейную связность мод (Linear Mode Connectivity, LMC). Ранее подобные методы были ограничены в масштабируемости, так как оптимизация пути интерполяции проводилась только от одной конечной точки модели. Новый подход снимает эти ограничения, позволяя применять слияние к крупным предобученным трансформерам с миллиардами параметров. arXiv · Машинное обучение Мультиагентные системы для многокритериальной оптимизации в динамических средах Исследователи представили новый подход к решению задач оптимизации в вычислительных и сетевых системах с помощью мультиагентных систем. Традиционные методы обучения с подкреплением часто сводят сложные задачи к минимизации единого скалярного вознаграждения, используя штрафные коэффициенты для учета ограничений. Однако такой подход оказывается недостаточно гибким в динамических условиях, где требования к производительности и затратам постоянно меняются. Hacker News · Машинное обучение Автоматизация проектирования нейросетей для граничных вычислений Разработчики представили подход к автоматизированному поиску архитектур нейронных сетей (NAS), оптимизированный для работы на устройствах с ограниченными вычислительными ресурсами. Технология позволяет автоматически подбирать структуру модели так, чтобы она сохраняла высокую точность при минимальных требованиях к оперативной памяти и энергопотреблению. Это решает проблему переноса тяжелых моделей на оборудование уровня Edge AI, где использование стандартных архитектур часто невозможно из-за жестких ограничений по железу. arXiv · Инфраструктура для агентов FoMoE: новый подход к обучению MoE-моделей через федерацию экспертов Исследователи представили архитектуру FoMoE (Federation of Mixture-of-Experts), которая решает проблему жесткой привязки параметров модели к вычислительной инфраструктуре. Традиционные методы обучения крупных языковых моделей требуют использования массивов тесно связанных ускорителей, что ограничивает масштабируемость. Новый подход позволяет распределять экспертов в составе MoE-архитектуры между независимыми вычислительными узлами, снимая барьер «полной репликации» весов модели на каждом устройстве. arXiv · Машинное обучение Итеративная самофильтрация данных для обучения мультимодальных моделей Качество обучающих выборок остается критическим фактором при создании эффективных мультимодальных нейросетей. В условиях работы с массивами данных гигантского объема ручная проверка становится невозможной, что приводит к накоплению значительного количества «шумных» и нерелевантных примеров. Традиционные методы очистки данных, основанные на эвристиках или использовании сторонних предобученных моделей, часто оказываются недостаточно гибкими или требуют больших вычислительных затрат. arXiv · Машинное обучение Новый метод повышения устойчивости многоагентных систем в условиях неточных моделей Исследователи представили новый математический подход к решению проблемы расхождения данных между тренировочными симуляторами и реальной средой в многоагентном обучении с подкреплением (MARL). В реальных условиях разрыв между моделью и действительностью часто приводит к резкому падению производительности агентов, так как стратегическое взаимодействие между ними усиливает любые ошибки прогнозирования. Авторы работы предлагают использовать принципы дистрибутивной робастности для оптимизации стратегий. arXiv · Машинное обучение Новый метод обучения мультимодальных моделей через разделение восприятия и рассуждения Исследователи представили метод обучения мультимодальных моделей, который решает проблему «коротких путей» при использовании самодистилляции. Традиционный подход, при котором модель обучается на собственных результатах с опорой на эталонные данные, часто приводит к тому, что мультимодальные системы игнорируют визуальный контекст, полагаясь исключительно на текстовые подсказки. Новый алгоритм разделяет процессы восприятия изображения и логического рассуждения, что заставляет модель учитывать визуальные признаки как равноправный источник информации. arXiv · Машинное обучение Новый метод выявления скрытых групп данных для повышения точности моделей Исследователи представили новый подход к решению проблемы ложных корреляций в машинном обучении. Современные модели часто показывают высокую среднюю точность, но допускают критические ошибки на недостаточно представленных подгруппах данных. Традиционные методы борьбы с этим явлением обычно требуют либо предварительной разметки подгрупп, либо использования псевдометок, которые не дают интерпретируемого результата на этапе инференса.

← Все материалы