Исследователи представили QC-SMOTE — фреймворк для борьбы с дисбалансом классов, который улучшает классический метод SMOTE за счет контроля качества синтетических данных. В отличие от стандартных подходов, алгоритм оценивает надежность миноритарных примеров, используя метрику доверия к окрестности, что позволяет избежать генерации шума в зонах перекрытия классов и повысить точность моделей классификации.
Проблема дисбаланса классов часто приводит к тому, что модели обучаются на некачественных синтетических данных, созданных в зашумленных областях пространства признаков. Традиционный SMOTE создает новые точки путем линейной интерполяции между существующими примерами, не учитывая их локальное окружение. Это часто ведет к «размытию» границ классов и снижению предсказательной способности алгоритмов на реальных данных.
QC-SMOTE решает эту задачу через композитный показатель «доверия к окрестности» (neighbourhood trustworthiness score). Система анализирует локальную плотность, уровень безопасности (safe-level) и степень изолированности каждой точки. Благодаря этому фильтру метод генерирует синтетические данные только в тех областях, где они действительно способствуют уточнению границ классов, минимизируя риск внесения искажений в обучающую выборку.
Ключевые факты
- Метод QC-SMOTE интегрирует три метрики: локальную плотность, safe-level и изоляцию для оценки качества данных.
- Алгоритм предназначен для решения проблемы генерации «шумных» синтетических примеров в областях перекрытия классов.
- Подход позволяет повысить надежность классификации в задачах с выраженным дисбалансом обучающих выборок.
- Разработка представлена в препринте на платформе arXiv под номером 2606.24625v1.