arXiv · 16.06.2026 ·Машинное обучение

Исследование переосмысливает методы сжатия датасетов в машинном обучении

Учёные пересмотрели подходы к dataset distillation (DD) — методу, который позволяет создавать компактные обучающие наборы данных, сохраняя ключевую информацию из больших датасетов. Исследование, опубликованное на arXiv, выявило несоответствия в оценке эффективности DD-методов, которые часто тестируются по разным протоколам, от стандартного ERM до использования одного или нескольких учителей.

Авторы отмечают, что существующие методы DD могут не всегда превосходить более простые подходы, такие как coresets. Они предлагают унифицированный подход к оценке, чтобы сделать сравнение методов более объективным.

Исследование подчёркивает важность стандартизации в оценке методов машинного обучения, что может помочь в выборе наиболее эффективных стратегий для работы с данными.

Работа доступна на arXiv и может быть полезна разработчикам, занимающимся оптимизацией обучающих наборов данных.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Повышение устойчивости диффузионных моделей к зашумленным данным Исследователи предложили новый метод обучения диффузионных моделей, который делает их более устойчивыми к загрязненным обучающим выборкам. Традиционный подход, основанный на минимизации среднеквадратичной ошибки (MSE), часто оказывается чувствительным к выбросам и некачественным данным, что снижает итоговое качество генерации контента. arXiv · Машинное обучение Исследование снижения дисперсии в обучении с подкреплением Исследователи проанализировали математические свойства метода временных различий (Temporal Difference, TD) в обучении с подкреплением. В работе рассматривается поведение алгоритма в табличной постановке задачи и выявляется ключевой механизм, позволяющий методу эффективно снижать дисперсию при оценке функций ценности. Авторы показывают, что TD-обучение достигает этого за счет агрегации данных по большему числу независимых траекторий, что делает его более устойчивым по сравнению с классическими методами Монте-Карло. arXiv · Машинное обучение Метод декомпозиции задач для повышения эффективности разметки данных Исследователи представили новый подход к разметке структурированных данных, основанный на декомпозиции сложных задач на более простые подзадачи. Метод позволяет значительно снизить затраты на создание качественных обучающих выборок, минимизируя необходимость в дорогостоящей ручной проверке результатов, полученных с помощью моделей, и повышая общую точность разметки для последующего обучения downstream-моделей. Hacker News · Машинное обучение Методология подготовки данных для обучения специализированным навыкам ИИ Качество и структура обучающих данных остаются критическим фактором при дообучении моделей для выполнения узкоспециализированных задач. Эксперты в области машинного обучения представили детальный разбор подходов к формированию датасетов, которые позволяют эффективно передавать ИИ новые навыки, минимизируя при этом галлюцинации и повышая точность ответов в сложных предметных областях. arXiv · Машинное обучение Исследование влияния позиционного смещения в методах дистилляции моделей Исследователи проанализировали эффективность метода On-Policy Distillation (OPD), который используется для ускорения обучения моделей с подкреплением через пошаговый контроль со стороны «учителя». Стандартный подход предполагает равномерное распределение весов для всех токенов при расчете функции потерь, однако новая работа доказывает, что такой метод не учитывает накопленные ошибки в длинных последовательностях. arXiv · Машинное обучение On-Policy Delta Distillation: новый метод обучения моделей с подкреплением Исследователи представили метод On-Policy Delta Distillation, направленный на оптимизацию процесса пост-тренировки языковых моделей. Новый подход позволяет использовать токенизированный надзор от «учителя» для обучения «ученика», обходя ограничения традиционных моделей вознаграждения. Техника повышает эффективность обучения с подкреплением, обеспечивая более точную передачу знаний между моделями при сохранении стабильности процесса. arXiv · Машинное обучение Исследование устойчивости распределенного самообучения к неоднородным данным Исследователи проанализировали устойчивость фреймворков распределенного самообучающегося обучения (D-SSL) к проблеме неоднородности данных (non-IID). Работа закрывает пробел в теоретическом понимании того, как различные архитектуры D-SSL справляются с распределенными неразмеченными данными, когда локальные наборы данных на узлах существенно различаются по своим статистическим характеристикам, что критически важно для обучения моделей на децентрализованных источниках. arXiv · Обучение и дообучение DOPD: новый метод дистилляции моделей с использованием привилегированной информации Исследователи представили метод Dual On-policy Distillation (DOPD), направленный на повышение эффективности обучения компактных моделей через дистилляцию знаний. Подход решает проблему потери качества при использовании привилегированной информации, разделяя процессы обучения учителя и ученика. Это позволяет передавать более точные сигналы на уровне токенов, улучшая производительность моделей без необходимости в чрезмерных вычислительных ресурсах. arXiv · Машинное обучение Новый подход к обнаружению дрейфа концептов в потоковых данных Исследователи представили метод обнаружения концептуального дрейфа (concept drift), основанный на анализе поведения моделей машинного обучения в динамических средах. Проблема дрейфа возникает, когда статистические свойства целевой переменной меняются со временем, что приводит к постепенному снижению точности алгоритмов, работающих с потоковыми данными. Традиционные методы часто полагаются на мониторинг распределения входных данных, однако новый подход фокусируется на отслеживании изменений в самой обучаемости модели. arXiv · Машинное обучение Повышение устойчивости нейросетевых алгоритмов реконструкции данных Исследователи представили новый фреймворк для решения обратных задач в машинном обучении, использующий методы дистрибутивно-робастной оптимизации (DRO). Подход позволяет нейросетям сохранять точность реконструкции даже при значительных отклонениях характеристик шума в тестовых данных от тех, что использовались при обучении, решая проблему слабой обобщающей способности стандартных моделей в условиях изменчивой среды.

← Все материалы