UPSNet: нейросеть для паноптической сегментации объектов на изображении

UPSNet — это нейросетевая архитектура для паноптической сегментации объектов на изображении. Задача паноптической сегментации объединяет в себе семантическую и instance сегментации. Предыдущие методы имели две отдельные сети для семантической и instance сегментации. UPSNet использует одну сеть в качестве базовой, представления из которой используются для сегментации. Поверх базовой сети два модуля одновременно решают задачи instance и семантической сегментаций. Модуль семантической сегментации основан на деформированной свертке и feature pyramid сетей (FPN). Модуль instance сегментации имеет в основе Mask RCNN. По результатам экспериментов, UPSNet достигает state-of-the-art результатов при более высокой скорости работы на инференсе. Код проекта доступен в публичном репозитории на GitHub.

Различия разных видов сегментаций объектов

Архитектура модели

UPSNet состоит из базовой сети, с помощью которой из изображений извлекаются признаки. Эти признаки затем используются двумя подсетями для одновременной instance и семантической сегментации. В качестве базовой сети выступает Mask R-CNN. За базовой сетью следуют два модуля: для семантической и instance сегментаций.

Оценка работы модели

Исследователи проверили модель на датасетах COCO, Cityscapes и внутреннем датасете. Ниже видно результаты сравнения UPSNet с state-of-the-art подходами на датасете COCO. UPSNet обходит предыдущие модели по большинству метрик.

Instance сегментация Сегментация

Архитектура модели

Оценка работы модели

Читайте также