3D-MiniNet — это нейросеть, которая семантически сегментирует точки в облаке точек, которое было получено с помощью лидара. Модель принимает на вход 3D облако точек сцены и для каждой точки предсказывает класс объекта. Нейросеть выдает state-of-the-art результаты на SemanticKITTI и KITTI. При этом, 3D-MiniNet имеет меньше параметров и обходит предыдущие модели в скорости выдачи предсказаний.
Данные из лидаров используются для такой задачи робототехники, как автономное вождение. Чтобы использовать модель семантической сегментации в автономном автомобиле, она должна выдавать предсказания с высокой точностью и скоростью. 3D-MiniNet комбинирует 2D и 3D слои. Сначала модель выучивает 2D представление из входного облака точек в новое пространство. Полученное представление поступает на вход 2D полностью сверточной сети (FCNN), которая выдает 2D семантическую сегментацию. 2D сегментация проецируется обратно в 3D пространство с помощью модуля пост-обработки. Основным нововведением архитектуры является модуль, которые учится проецировать данные из одного пространство в другое.
Архитектура нейросети
Предложенная 3D-MiniNet принимает на вход 3D облако точек. Для каждой точки в облаке модель предсказывает класс объекта, к которому точка принадлежит.
Фреймворк состоит из трех модулей:
- Поиск соседей 3D точки, где облако точек проецируется из 3D в 2D;
- 3D-MiniNet, которая предсказывает сегментацию для облака точек;
- Пост-обработка сегментации, которая основана на KNN
Сама 3D-MiniNet модель состоит из двух частей: модуль обучения проекции и модуль сегментации. Модуль сегментации основывается на архитектуре MiniNetV2.
Оценка работы модели
Исследователи тестировали подход на датасетах SemanticKITTI и KITTI. Лучшая версия 3D-MiniNet обходит предыдущие модели по метрике mIoU. При этом 3D-MiniNet в два раза быстре и имеет в 12 раз меньше параметров.