CenterMask — это нейросетевая модель для instance сегментации в реальном времени. Нейросеть основывается на архитектуре одноступенчатого детектора объектов FCOS. Исследователи добавили к FCOS архитектуре новый блок spatial attention-guided mask (SAG-Mask). SAG-Mask предсказывает маску сегментации для каждого бокса объекта. При предсказании SAG-Mask учитывает карту пространственного внимания (spatial attention map), чтобы минимизировать шум в предсказанных масках. С ResNet-101-FPN в основании CenterMask достигает 38.3% по AP (Average Precision). Это превышает точность предыдущих state-of-the-art подходов при более высокой скорости.
Использование на инференсе полностью сверточных подходов ускоряет выдачу предсказаний. Недавно была опубликована архитектура для instance сегментации, которая также основана на FCOS, — BlendMask.
Архитектура CenterMask
CenterMask состоит из трех частей:
- Модель в основании (backcone), которая извлекает признаки из изображений;
- Блок с детектированием объектов с помощью полностью сверточной одноступенчатой FCOS;
- Блок для предсказания маски объекта SAG-Mask. SAG-Mask использует карту пространственного внимания (spatial attention map) при предсказании масок объектов
Результаты экспериментов
Исследователи сравнили CenterMask с state-of-the-art одноступенчатыми решениями для instance сегментации. Нейросети тестировали на датасете COCO. В качестве метрики выбрали Average Precision предсказанных масок. Ниже видно, что CenterMask преимущественно обходит альтернативные подходы в средней точности.