Исследователи представили метод повышения качества обучения представлений в 3D-облаках точек через устранение «позиционной утечки» в моделях Masked Autoencoders (MAE). Авторы обнаружили, что текущие декодеры чрезмерно полагаются на прямую реконструкцию пространственных координат, что снижает обобщающую способность моделей. Новый подход позволяет эффективнее извлекать семантические признаки, улучшая результаты в задачах классификации и сегментации 3D-данных.
В традиционных 3D MAE-фреймворках модель часто «подсматривает» точные координаты точек, вместо того чтобы изучать их геометрическую структуру. Это приводит к тому, что нейросеть фокусируется на тривиальной задаче восстановления геометрии, игнорируя более глубокие закономерности объектов. Предложенное решение модифицирует архитектуру декодера, ограничивая доступ к прямой позиционной информации на этапе обучения.
Такая оптимизация критически важна для развития систем компьютерного зрения, работающих с данными LiDAR и 3D-сканеров. Улучшение качества представлений позволяет моделям точнее распознавать объекты в сложных условиях, где зашумленность данных или неполное покрытие облака точек ранее приводили к ошибкам интерпретации. Метод демонстрирует значительный прирост метрик на стандартных бенчмарках для 3D-данных.
Ключевые факты
- Исследование сфокусировано на проблеме позиционной утечки в 3D Masked Autoencoders при работе с облаками точек.
- Установлено, что существующие декодеры избыточно используют пространственные координаты, что препятствует полноценному обучению семантических признаков.
- Модификация архитектуры декодера позволяет модели фокусироваться на изучении структуры объектов, а не на простом копировании координат.
- Новый метод показывает повышенную точность в задачах классификации и сегментации 3D-объектов по сравнению с базовыми архитектурами MAE.