SegVoxelNet — это нейросеть для распознавания средств передвижения в 3D. Модель принимает на вход облако точек с моделью дороги. На выходе она предсказывает границы объектов. SegVoxelNet обходит state-of-the-art подходы, которые принимают на вход только облако точек.
3D распознавание транспорта, которое основано на облаках точек, применяется в автономном вождении. Несмотря на значительный прогресс в решении этой задачи, текущие подходы требуют улучшения в двух аспектах:
- Прошлые подходы редко рассматривают семантическую информацию с лидаров. Эти данные могут помочь в распознавании неопределенных объектов;
- Распределение облака точек на объекте непрерывно меняется с увеличением глубины. Одна модель может не уметь моделировать эту зависимость;
Чтобы решить вышеперечисленные ограничения, исследователи предлагают унифицированную модель SegVoxelNet. Энкодер семантического контекста использует семантические маски сцены дороги. Семантические маски были получены из дополнительных изображений с высоты птичьего полета. Модуль помогает выделять те части сцены, в которых модель не уверена, и опускать шумные части сцены. За учет глубины сцены отвечает отдельный модуль. Эта часть SegVoxelNet напрямую моделирует разности распределений точек в рамках границ объекта.
Архитектура модели
SegVoxelNet состоит из трех компонентов:
- Voxel Feature Encoder (VFE), который кодирует признаки вокселей;
- Semantic Context Encoder (SCE), который кодирует семантическую информацию о сцене;
- Модуль для кодирования глубины сцены
Оценка работы модели
Исследователи тестировали подход на датасете KITTI. В качестве метрики использовали 3D mAP. SegVoxelNet обходит все предыдущие методы, которые используют данные с лидаров и изображений, кроме одного.