Нейросеть распознает средства передвижения в 3D по облаку точек

SegVoxelNet — это нейросеть для распознавания средств передвижения в 3D. Модель принимает на вход облако точек с моделью дороги. На выходе она предсказывает границы объектов. SegVoxelNet обходит state-of-the-art подходы, которые принимают на вход только облако точек.

3D распознавание транспорта, которое основано на облаках точек, применяется в автономном вождении. Несмотря на значительный прогресс в решении этой задачи, текущие подходы требуют улучшения в двух аспектах:

  1. Прошлые подходы редко рассматривают семантическую информацию с лидаров. Эти данные могут помочь в распознавании неопределенных объектов;
  2. Распределение облака точек на объекте непрерывно меняется с увеличением глубины. Одна модель может не уметь моделировать эту зависимость;

Чтобы решить вышеперечисленные ограничения, исследователи предлагают унифицированную модель SegVoxelNet. Энкодер семантического контекста использует семантические маски сцены дороги. Семантические маски были получены из дополнительных изображений с высоты птичьего полета. Модуль помогает выделять те части сцены, в которых модель не уверена, и опускать шумные части сцены. За учет глубины сцены отвечает отдельный модуль. Эта часть SegVoxelNet напрямую моделирует разности распределений точек в рамках границ объекта. 

Архитектура модели

SegVoxelNet состоит из трех компонентов:

  • Voxel Feature Encoder (VFE), который кодирует признаки вокселей;
  • Semantic Context Encoder (SCE), который кодирует семантическую информацию о сцене;
  • Модуль для кодирования глубины сцены
Визуализация составных частей модели

Оценка работы модели

Исследователи тестировали подход на датасете KITTI. В качестве метрики использовали 3D mAP. SegVoxelNet обходит все предыдущие методы, которые используют данные с лидаров и изображений, кроме одного.

Сравнение моделей на датасете KITTI
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt