Исследователи выявили критическую проблему в оценке систем обнаружения дронов по радиочастотным сигналам. Анализ показал, что высокая точность моделей часто является следствием утечки данных при некорректном разбиении выборок. Из-за разделения непрерывных записей на короткие фрагменты модели «запоминают» специфические особенности сигналов из обучающего набора, что ведет к переобучению и завышенным результатам в тестах.

Авторы работы подчеркивают, что стандартная кросс-валидация в задачах классификации сигналов БПЛА часто игнорирует временную корреляцию данных. Когда фрагменты одной и той же записи попадают и в обучающую, и в тестовую выборки, модель фактически решает задачу распознавания конкретного сеанса связи, а не обобщает характеристики протокола или типа устройства. Это создает иллюзию надежности систем, которые в реальных условиях эксплуатации показывают значительно более низкие показатели.

Для решения проблемы предложена методология разделения данных по сеансам связи, а не по временным отрезкам. Такой подход позволяет объективно оценить способность нейросетей к генерализации на новых, ранее не виденных сигналах. Исследование доказывает, что текущие метрики в области радиочастотного мониторинга требуют пересмотра для обеспечения достоверности при разработке систем защиты от беспилотников.

Ключевые факты

  • Основная причина завышения точности — утечка данных из-за некорректного разбиения непрерывных записей на фрагменты.
  • Модели демонстрируют высокую эффективность в тестах, так как по сути «запоминают» уникальные характеристики конкретных сеансов связи.
  • Предложен метод разделения данных по сеансам (session-based split) для предотвращения переобучения и получения реалистичных метрик.
  • Исследование ставит под сомнение надежность существующих бенчмарков в сфере обнаружения и идентификации БПЛА по радиочастотным каналам.