Gated-SCNN: новый state-of-the-art в семантической сегментации

Gated-SCNN — это двухпоточная сверточная нейросеть для семантической сегментации изображений. GSCNN обходит state-of-the-art архитектуры на 2-4% на задаче Cityscapes. Архитектура была разработана исследователями из NVIDIA.

Текущие state-of-the-art методы для сегментации изображений создают плотное представление изображения. В таких представлениях одновременно хранится информация о цвете форме и текстуре объекта, и они обрабатываются в глубокой сверточной нейросети. Это подход неоптимальный, потому что представления хранят в себе слишком разнообразную информацию об объекте. В GSCNN обработка изображения делится в два параллельных потока: информация о форме объекта кодируется в отдельном потоке.

Суть архитектуры в том гейтах нового типа, которые объединяют промежуточные слои двух потоков. Эксперименты показывают, что такие особенности структуры позволяют выдавать более точные предсказания о границах объекта. Более тонкие и маленькие по размеру объекты распознаются лучше.

Что внутри нейросети

Архитектура состоит из двух потоков:

Обычный поток (regular stream), который представляет собой любую модель для семантической сегментации;
Поток кодирования формы объекта (shape stream), в котором через набор residual blocks, Gated Convolutional Layers (GCL) и обучение с учителем обрабатывается информация о форме объекта

Совместная модель затем комбинирует информацию из двух потоков с помощью модуля Atrous Spatial Pyramid Pooling (ASPP). Чтобы границы объекта были точнее, исследователи вводят регуляризатор Dual Task Regularizer

Визуализация составных частей модели: два потока обработки информации и совместная модель, в которой объединяется информация с двух потоков

Оценка работы модели

В качестве базовой модели исследователи брали предобученную нейросеть DeepLabV3+. Это state-of-the-art архитектура для задачи семантической сегментации. Внутри DeepLabV3+ используются ResNet-50, ResNet-101 и WideResNet как базовые модели.

Модели обучаются на датасете Cityscapes. Все эксперименты проводятся на том же наборе данных. Датасет состоит из изображений 27 городов. В обучающей выборке — 2975 изображений, в валидационной — 500, а в тестовой — 1525.

Сравнение подходов к семантической сегментации (строки). Мерика — Intersection Over Union (IOU) для разных классов объектов (столбцы) на Cityscapes

Для сравнения, на изображении с большим количеством людей базовая модель распознает столбы как часть толпы. В то время как GSCNN распознает объекты корректно.