arXiv · 26.06.2026 ·Машинное обучение

MixTTA: новый метод адаптации моделей к изменениям данных в реальном времени

Исследователи представили MixTTA — метод адаптации моделей в процессе тестирования (TTA), который решает проблему неэффективности стандартных подходов при изменении распределения данных. В отличие от традиционных методов, обновляющих параметры нормализации по отдельным каналам, MixTTA использует низкоранговое смешивание каналов, что позволяет модели лучше адаптироваться к структурным сдвигам в данных без необходимости переобучения.

Традиционные методы TTA ограничиваются масштабированием и сдвигом параметров нормализации вдоль осей, что делает их геометрически неспособными корректировать сложные кросс-канальные зависимости. При возникновении расхождения между обучающими и тестовыми данными такие модели часто теряют точность. Новый подход вводит механизм смешивания, который учитывает взаимосвязи между каналами, обеспечивая более надежную работу нейронных сетей в динамических условиях.

Разработка направлена на повышение устойчивости моделей, развернутых в реальных сценариях, где входные данные могут существенно отличаться от тех, на которых проводилось обучение. Метод позволяет эффективно корректировать внутренние представления модели, сохраняя при этом низкие вычислительные затраты, что критически важно для систем, работающих в режиме реального времени.

Ключевые факты

MixTTA использует низкоранговое смешивание каналов для коррекции структурных изменений, вызванных сдвигом распределения данных.
Метод преодолевает геометрические ограничения стандартных методов адаптации, которые работают только с независимыми параметрами нормализации.
Подход ориентирован на повышение надежности моделей при работе с данными, отличными от обучающей выборки, без необходимости полноценного дообучения.
Технология применима для адаптации уже развернутых моделей в условиях динамически меняющейся среды.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Новый метод адаптации моделей для сегментации аномалий с учетом топологии Исследователи представили новый подход к адаптации моделей в процессе тестирования (TTA) для задач сегментации аномалий. Метод фокусируется на сохранении структурной целостности данных при наличии шума и вариаций текстур, преодолевая ограничения традиционных эвристик на уровне пикселей. Решение позволяет моделям лучше адаптироваться к сдвигам распределения данных, обеспечивая более точное выделение аномальных областей в реальных условиях эксплуатации. Hacker News · Обучение и дообучение Дистилляция знаний из закрытых LLM: новый подход к обучению компактных моделей Исследователи представили метод дистилляции знаний из «черных ящиков» — проприетарных больших языковых моделей — для обучения более компактных и эффективных нейросетей. Подход позволяет переносить сложные логические способности и лингвистические навыки от гигантских моделей к меньшим архитектурам, сохраняя высокую производительность при значительном снижении требований к вычислительным ресурсам и затратам на инференс. arXiv · Исследования и наука Tapered Language Models: оптимизация архитектуры через неравномерное распределение параметров Исследователи представили концепцию Tapered Language Models, предлагающую пересмотреть стандартную архитектуру нейросетей. Традиционные модели, включая трансформеры, используют стек идентичных слоев с равномерным распределением параметров по всей глубине сети. Авторы работы доказывают, что такой подход избыточен, так как вклад слоев в итоговый результат неоднороден: ранние и поздние слои выполняют разные вычислительные задачи. arXiv · Машинное обучение Метод динамического объединения моделей без дообучения Исследователи представили новый подход к объединению нескольких специализированных нейросетевых экспертов в одну многозадачную модель. Традиционные методы слияния весов часто сталкиваются с проблемой интерференции параметров, когда знания одной модели конфликтуют с другой, что приводит к снижению точности по сравнению с исходными узкоспециализированными версиями. arXiv · Инфраструктура для агентов E-TTS: новый фреймворк для масштабирования рассуждений в робототехнике Исследователи представили E-TTS (Embodied Test-Time Scaling) — фреймворк для улучшения производительности робототехнических агентов через масштабирование рассуждений во время выполнения задач. Система решает проблему длинных последовательностей действий, интегрируя механизмы работы с историей состояний и адаптивное планирование, что позволяет моделям эффективнее справляться со сложными манипуляциями в динамической среде без необходимости дообучения. Hacker News · Инфраструктура для агентов Deltatensors: новый способ хранения дообученных весов моделей через сжатые дельты Библиотека Deltatensors предлагает оптимизированный подход к хранению и распространению дообученных весов нейросетей. Вместо сохранения полных копий модели, инструмент вычисляет и сжимает разницу (дельты) между базовыми весами и весами после fine-tuning. Это позволяет значительно сократить объем дискового пространства, необходимого для версионирования и обмена специализированными моделями в агентных системах и пайплайнах разработки. arXiv · Машинное обучение Итеративная самофильтрация данных для обучения мультимодальных моделей Качество обучающих выборок остается критическим фактором при создании эффективных мультимодальных нейросетей. В условиях работы с массивами данных гигантского объема ручная проверка становится невозможной, что приводит к накоплению значительного количества «шумных» и нерелевантных примеров. Традиционные методы очистки данных, основанные на эвристиках или использовании сторонних предобученных моделей, часто оказываются недостаточно гибкими или требуют больших вычислительных затрат. arXiv · Машинное обучение Новый метод повышения устойчивости многоагентных систем в условиях неточных моделей Исследователи представили новый математический подход к решению проблемы расхождения данных между тренировочными симуляторами и реальной средой в многоагентном обучении с подкреплением (MARL). В реальных условиях разрыв между моделью и действительностью часто приводит к резкому падению производительности агентов, так как стратегическое взаимодействие между ними усиливает любые ошибки прогнозирования. Авторы работы предлагают использовать принципы дистрибутивной робастности для оптимизации стратегий. arXiv · Машинное обучение Новый метод масштабируемого слияния предобученных трансформеров Исследователи представили фреймворк, позволяющий эффективно объединять веса независимо обученных нейронных сетей через линейную связность мод (Linear Mode Connectivity, LMC). Ранее подобные методы были ограничены в масштабируемости, так как оптимизация пути интерполяции проводилась только от одной конечной точки модели. Новый подход снимает эти ограничения, позволяя применять слияние к крупным предобученным трансформерам с миллиардами параметров. Hacker News · Исследования и наука Tapered Language Models: новый подход к оптимизации архитектуры LLM Исследователи представили концепцию Tapered Language Models — архитектурный подход, при котором ширина слоев нейросети постепенно уменьшается по мере углубления модели. Такой метод позволяет значительно снизить вычислительные затраты на инференс и объем используемой памяти, сохраняя при этом производительность, сопоставимую с традиционными трансформерами фиксированной ширины, что критически важно для эффективного развертывания моделей.

← Все материалы