Исследователи выявили критическую проблему в оценке систем обнаружения дронов по радиочастотным сигналам. Анализ показал, что высокая точность моделей часто является следствием утечки данных при некорректном разбиении выборок. Из-за разделения непрерывных записей на короткие фрагменты модели «запоминают» специфические особенности сигналов из обучающего набора, что ведет к переобучению и завышенным результатам в тестах.
Авторы работы подчеркивают, что стандартная кросс-валидация в задачах классификации сигналов БПЛА часто игнорирует временную корреляцию данных. Когда фрагменты одной и той же записи попадают и в обучающую, и в тестовую выборки, модель фактически решает задачу распознавания конкретного сеанса связи, а не обобщает характеристики протокола или типа устройства. Это создает иллюзию надежности систем, которые в реальных условиях эксплуатации показывают значительно более низкие показатели.
Для решения проблемы предложена методология разделения данных по сеансам связи, а не по временным отрезкам. Такой подход позволяет объективно оценить способность нейросетей к генерализации на новых, ранее не виденных сигналах. Исследование доказывает, что текущие метрики в области радиочастотного мониторинга требуют пересмотра для обеспечения достоверности при разработке систем защиты от беспилотников.
Ключевые факты
- Основная причина завышения точности — утечка данных из-за некорректного разбиения непрерывных записей на фрагменты.
- Модели демонстрируют высокую эффективность в тестах, так как по сути «запоминают» уникальные характеристики конкретных сеансов связи.
- Предложен метод разделения данных по сеансам (session-based split) для предотвращения переобучения и получения реалистичных метрик.
- Исследование ставит под сомнение надежность существующих бенчмарков в сфере обнаружения и идентификации БПЛА по радиочастотным каналам.