Исследователи представили метод повышения качества обучения представлений в 3D-облаках точек через устранение «позиционной утечки» в моделях Masked Autoencoders (MAE). Авторы обнаружили, что текущие декодеры чрезмерно полагаются на прямую реконструкцию пространственных координат, что снижает обобщающую способность моделей. Новый подход позволяет эффективнее извлекать семантические признаки, улучшая результаты в задачах классификации и сегментации 3D-данных.

В традиционных 3D MAE-фреймворках модель часто «подсматривает» точные координаты точек, вместо того чтобы изучать их геометрическую структуру. Это приводит к тому, что нейросеть фокусируется на тривиальной задаче восстановления геометрии, игнорируя более глубокие закономерности объектов. Предложенное решение модифицирует архитектуру декодера, ограничивая доступ к прямой позиционной информации на этапе обучения.

Такая оптимизация критически важна для развития систем компьютерного зрения, работающих с данными LiDAR и 3D-сканеров. Улучшение качества представлений позволяет моделям точнее распознавать объекты в сложных условиях, где зашумленность данных или неполное покрытие облака точек ранее приводили к ошибкам интерпретации. Метод демонстрирует значительный прирост метрик на стандартных бенчмарках для 3D-данных.

Ключевые факты

  • Исследование сфокусировано на проблеме позиционной утечки в 3D Masked Autoencoders при работе с облаками точек.
  • Установлено, что существующие декодеры избыточно используют пространственные координаты, что препятствует полноценному обучению семантических признаков.
  • Модификация архитектуры декодера позволяет модели фокусироваться на изучении структуры объектов, а не на простом копировании координат.
  • Новый метод показывает повышенную точность в задачах классификации и сегментации 3D-объектов по сравнению с базовыми архитектурами MAE.