arXiv · 30.06.2026 ·Исследования и наука

DPPE: новый метод позиционного кодирования для мультиракурсных трансформеров

Исследователи представили DPPE (Decomposed Positional Projection Encoding) — новый подход к позиционному кодированию в 3D-компьютерном зрении. Метод оптимизирует использование параметров камеры в трансформерах, позволяя моделям эффективнее интерпретировать пространственные связи между различными ракурсами. Это решение устраняет ограничения существующих систем кодирования, улучшая масштабируемость и точность обработки 3D-данных в задачах компьютерного зрения.

Традиционные методы внедрения параметров камеры, таких как матрицы проекции или внешние параметры, в векторы запросов, ключей и значений часто сталкиваются с проблемами при масштабировании моделей. DPPE предлагает декомпозицию позиционной информации, что позволяет трансформерам лучше улавливать геометрические зависимости в сценах с множеством камер. Это критически важно для задач реконструкции 3D-пространства и анализа объектов в реальном времени.

Разработка направлена на повышение эффективности обучения мультиракурсных моделей, которые лежат в основе современных систем автономного вождения и робототехники. Улучшенная архитектура кодирования позволяет нейросетям более точно сопоставлять признаки из разных источников, снижая вычислительные затраты при сохранении высокой детализации пространственных представлений.

Ключевые факты

DPPE (Decomposed Positional Projection Encoding) оптимизирует интеграцию параметров камеры в архитектуру трансформеров.
Метод фокусируется на улучшении пространственных подсказок в мультиракурсной геометрии для 3D-задач.
Подход решает проблему масштабируемости, характерную для классических методов позиционного кодирования на основе матриц проекции.
Технология применима в областях, требующих точной обработки 3D-данных, включая робототехнику и беспилотный транспорт.

Источник: arXiv

Обсудить с ИИ

Похожие материалы

arXiv · Машинное обучение Устранение утечки позиционной информации в 3D Masked Autoencoders Исследователи представили метод повышения качества обучения представлений в 3D-облаках точек через устранение «позиционной утечки» в моделях Masked Autoencoders (MAE). Авторы обнаружили, что текущие декодеры чрезмерно полагаются на прямую реконструкцию пространственных координат, что снижает обобщающую способность моделей. Новый подход позволяет эффективнее извлекать семантические признаки, улучшая результаты в задачах классификации и сегментации 3D-данных. arXiv · Машинное обучение Исследование устойчивости позиционного кодирования на основе сходства Учёные изучили устойчивость similarity-based positional encoding (simPE) — метода, который использует парные отношения для представления позиционной структуры в трансформерах. Исследование показало, что simPE демонстрирует высокую устойчивость к вращениям, что делает его более гибким по сравнению с традиционными методами, такими как абсолютное и синусоидальное кодирование. arXiv · Машинное обучение MoPe: новый метод для стабильного 3D-картографирования в динамических сценах Исследователи представили метод MoPe (Motion Permanence), решающий проблему нестабильности монокулярного Gaussian Splatting SLAM в динамических средах. В отличие от существующих подходов, которые воспринимают движущиеся объекты как кратковременные помехи, MoPe обеспечивает сохранение целостности карты при изменении сцены. Это позволяет роботам сохранять точность локализации и навигации, даже когда объекты в поле зрения перемещаются или временно скрываются. arXiv · Исследования и наука Polycepta: новый метод оценки объектов для трекинга в реальном времени Исследователи представили метод Polycepta, направленный на улучшение систем многообъектного трекинга (MOT). Традиционные подходы в этой области часто полагаются на статические дескрипторы внешнего вида, которые не учитывают динамику сцены и требуют значительных вычислительных мощностей. Из-за высокой нагрузки на GPU разработчики систем реального времени нередко отказываются от использования визуальных признаков, ограничиваясь только анализом движения, что снижает точность сопровождения объектов при их перекрытии или резкой смене траектории. arXiv · Машинное обучение Оптимизация RGB-T детектирования объектов через разреженную кросс-модальную фузию Исследователи представили метод эффективного обнаружения объектов, объединяющий данные видимого спектра и тепловизионных камер. В отличие от стандартных подходов, требующих тяжелых архитектур и обработки всего изображения, новый алгоритм использует разреженную кросс-модальную фузию. Это позволяет сосредоточить вычислительные ресурсы на информативных областях, игнорируя однородные фоновые зоны, что значительно снижает нагрузку на систему без потери точности. NVIDIA Technical Blog · Машинное обучение Ускорение BEV-пулинга на GPU NVIDIA для систем физического ИИ NVIDIA представила методы оптимизации BEV-пулинга (Bird's-Eye-View) — критически важного этапа обработки данных в автономном транспорте и робототехнике. Новые подходы позволяют значительно сократить задержки при проекции данных с камер в единое 3D-пространство, что критично для систем реального времени. Оптимизация реализована через специализированные CUDA-ядра, повышающие пропускную способность при работе с пространственными признаками. arXiv · Машинное обучение Трансформеры для решения уравнений на сложных геометриях Исследователи из MIT и других ведущих университетов представили новый подход к использованию трансформеров для решения задач, связанных с дифференциальными уравнениями на сложных геометриях. Традиционные методы, основанные на нейронных операторах, ограничены фиксированным размером области, что затрудняет их применение в реальных сценариях, где размеры могут варьироваться. arXiv · Исследования и наука UNIEGO: новый подход к обучению представлений в эгоцентрических видео Исследователи представили метод UNIEGO, направленный на решение проблемы ограниченного обзора в эгоцентрических видео, снятых с носимых камер. Основная сложность таких данных заключается в узком угле обзора, единственной модальности и зависимости от конкретной модели, что не позволяет полноценно интерпретировать человеческие действия. Авторы работы предлагают использовать прокси-модели в качестве посредников для объединения знаний из различных источников. arXiv · Исследования и наука Метод интринсивной декомпозиции для редактирования 3D Gaussian Splatting Исследователи представили новый метод интринсивной декомпозиции для 3D Gaussian Splatting, позволяющий разделять цвета объектов на диффузное альбедо и затенение. Это решение дает возможность независимо редактировать текстуры и освещение в 3D-сценах, сохраняя физическую корректность рендеринга. Технология решает проблему изменения внешнего вида объектов без нарушения целостности световых эффектов, что критически важно для профессиональной компьютерной графики. arXiv · Машинное обучение Метод декомпозиции задач для повышения эффективности разметки данных Исследователи представили новый подход к разметке структурированных данных, основанный на декомпозиции сложных задач на более простые подзадачи. Метод позволяет значительно снизить затраты на создание качественных обучающих выборок, минимизируя необходимость в дорогостоящей ручной проверке результатов, полученных с помощью моделей, и повышая общую точность разметки для последующего обучения downstream-моделей.

← Все материалы