Исследователи представили QC-SMOTE — фреймворк для борьбы с дисбалансом классов, который улучшает классический метод SMOTE за счет контроля качества синтетических данных. В отличие от стандартных подходов, алгоритм оценивает надежность миноритарных примеров, используя метрику доверия к окрестности, что позволяет избежать генерации шума в зонах перекрытия классов и повысить точность моделей классификации.

Проблема дисбаланса классов часто приводит к тому, что модели обучаются на некачественных синтетических данных, созданных в зашумленных областях пространства признаков. Традиционный SMOTE создает новые точки путем линейной интерполяции между существующими примерами, не учитывая их локальное окружение. Это часто ведет к «размытию» границ классов и снижению предсказательной способности алгоритмов на реальных данных.

QC-SMOTE решает эту задачу через композитный показатель «доверия к окрестности» (neighbourhood trustworthiness score). Система анализирует локальную плотность, уровень безопасности (safe-level) и степень изолированности каждой точки. Благодаря этому фильтру метод генерирует синтетические данные только в тех областях, где они действительно способствуют уточнению границ классов, минимизируя риск внесения искажений в обучающую выборку.

Ключевые факты

  • Метод QC-SMOTE интегрирует три метрики: локальную плотность, safe-level и изоляцию для оценки качества данных.
  • Алгоритм предназначен для решения проблемы генерации «шумных» синтетических примеров в областях перекрытия классов.
  • Подход позволяет повысить надежность классификации в задачах с выраженным дисбалансом обучающих выборок.
  • Разработка представлена в препринте на платформе arXiv под номером 2606.24625v1.