arXiv · 21.06.2026 ·Машинное обучение

Повышение устойчивости диффузионных моделей к зашумленным данным

Исследователи предложили новый метод обучения диффузионных моделей, который делает их более устойчивыми к загрязненным обучающим выборкам. Традиционный подход, основанный на минимизации среднеквадратичной ошибки (MSE), часто оказывается чувствительным к выбросам и некачественным данным, что снижает итоговое качество генерации контента.

Авторы работы заменили стандартную функцию потерь на нелинейное преобразование, индуцированное f-дивергенцией. Этот подход позволяет модели эффективнее игнорировать аномалии в данных без существенного увеличения вычислительных затрат. Теоретическая база метода опирается на конструкцию локальной дивергенции в рамках структуры обратного гауссовского ядра.

Экспериментальные результаты подтверждают, что предложенный суррогат обучения позволяет сохранять высокую производительность даже при наличии значительного уровня шума в датасетах. Метод открывает возможности для обучения более надежных генеративных моделей на «сырых» или не полностью очищенных данных, что критически важно для масштабирования обучения на больших массивах информации.

Источник: arXiv

Похожие материалы

arXiv · Машинное обучение Итеративная самофильтрация данных для обучения мультимодальных моделей Качество обучающих выборок остается критическим фактором при создании эффективных мультимодальных нейросетей. В условиях работы с массивами данных гигантского объема ручная проверка становится невозможной, что приводит к накоплению значительного количества «шумных» и нерелевантных примеров. Традиционные методы очистки данных, основанные на эвристиках или использовании сторонних предобученных моделей, часто оказываются недостаточно гибкими или требуют больших вычислительных затрат. arXiv · Исследования и наука Исследование адаптивности диффузионных моделей к низкоразмерным структурам данных Исследователи проанализировали способность диффузионных моделей адаптироваться к скрытым низкоразмерным структурам данных в процессе генерации. Ранее считалось, что эффективность ускорения выборки напрямую зависит от строго заданных коэффициентов в правилах обновления модели. Новая работа ставит под сомнение эту жесткую зависимость, доказывая, что адаптация к структуре данных возможна при более гибком выборе параметров. arXiv · Модели и релизы Почему самоулучшающиеся модели могут деградировать на новых задачах Исследователи из Arxiv выявили проблему в популярном подходе к самоулучшению визуально-языковых моделей (VLM), основанном на DPO (Direct Preference Optimization). В таких системах «верфикатор» оценивает генерации модели, а на основе лучших и худших примеров происходит обучение. Авторы показали, что этот метод может привести к деградации модели на новых задачах, несмотря на улучшение на обучающих данных. arXiv · Машинное обучение Новый алгоритм VRA-FedSGD для федеративного обучения в условиях шума Исследователи представили алгоритм VRA-FedSGD, предназначенный для оптимизации федеративного обучения (Federated Learning) в распределенных системах. Метод направлен на решение проблем, возникающих при работе с данными на локальных устройствах, где градиентные шумы с «тяжелыми хвостами» и нестабильность каналов связи существенно снижают точность и скорость сходимости глобальных моделей. arXiv · Машинное обучение Новый метод обучения систем диагностики неисправностей при дефиците данных Исследователи представили новый подход к проектированию интеллектуальных систем диагностики неисправностей (IFDS), основанный на анализе вибрационных сигналов. Традиционные методы глубокого обучения с переносом (Deep Transfer Learning) требуют значительных объемов размеченных данных, что создает серьезные препятствия при мониторинге технического состояния промышленного оборудования. В условиях реальной эксплуатации получение больших выборок с описанием поломок часто затруднено или экономически невыгодно. arXiv · Машинное обучение Новый метод обучения мультимодальных моделей через разделение восприятия и рассуждения Исследователи представили метод обучения мультимодальных моделей, который решает проблему «коротких путей» при использовании самодистилляции. Традиционный подход, при котором модель обучается на собственных результатах с опорой на эталонные данные, часто приводит к тому, что мультимодальные системы игнорируют визуальный контекст, полагаясь исключительно на текстовые подсказки. Новый алгоритм разделяет процессы восприятия изображения и логического рассуждения, что заставляет модель учитывать визуальные признаки как равноправный источник информации. arXiv · Модели и релизы Influcoder: новый метод атрибуции данных для улучшения качества датасетов Исследователи представили метод Influcoder, который позволяет оценивать влияние отдельных данных на обучение языковых моделей. Это важно для создания качественных датасетов, так как позволяет выявлять и удалять вредоносные или нерелевантные данные. arXiv · Машинное обучение Исследование переосмысливает методы сжатия датасетов в машинном обучении Учёные пересмотрели подходы к dataset distillation (DD) — методу, который позволяет создавать компактные обучающие наборы данных, сохраняя ключевую информацию из больших датасетов. Исследование, опубликованное на arXiv, выявило несоответствия в оценке эффективности DD-методов, которые часто тестируются по разным протоколам, от стандартного ERM до использования одного или нескольких учителей. arXiv · Машинное обучение Исследование влияния позиционного смещения в методах дистилляции моделей Исследователи проанализировали эффективность метода On-Policy Distillation (OPD), который используется для ускорения обучения моделей с подкреплением через пошаговый контроль со стороны «учителя». Стандартный подход предполагает равномерное распределение весов для всех токенов при расчете функции потерь, однако новая работа доказывает, что такой метод не учитывает накопленные ошибки в длинных последовательностях. arXiv · Машинное обучение Новый метод оценки обобщающей способности моделей через PAC-Bayes Исследователи представили новый подход к дерандомизации PAC-Bayes оценок для функций потерь с высокой степенью гладкости. Традиционные методы оценки обобщающей способности моделей часто опираются на вероятностные предсказатели, что затрудняет их прямое применение к детерминированным алгоритмам. Авторы работы предлагают математический аппарат, позволяющий переносить теоретические гарантии с ансамблей типа Gibbs на конкретные детерминированные модели, используя свойства гладкости функции потерь и класса предсказателей.

← Все материалы