fbpx
  • Gated-SCNN: новый state-of-the-art в семантической сегментации

    Gated-SCNN — это двухпоточная сверточная нейросеть для семантической сегментации изображений. GSCNN обходит state-of-the-art архитектуры на 2-4% на задаче Cityscapes. Архитектура была разработана исследователями из NVIDIA.

    Текущие state-of-the-art методы для сегментации изображений создают плотное представление изображения. В таких представлениях одновременно хранится информация о цвете форме и текстуре объекта, и они обрабатываются в глубокой сверточной нейросети. Это подход неоптимальный, потому что представления хранят в себе слишком разнообразную информацию об объекте. В GSCNN обработка изображения делится в два параллельных потока: информация о форме объекта кодируется в отдельном потоке.

    Суть архитектуры в том гейтах нового типа, которые объединяют промежуточные слои двух потоков. Эксперименты показывают, что такие особенности структуры позволяют выдавать более точные предсказания о границах объекта. Более тонкие и маленькие по размеру объекты распознаются лучше.

    Что внутри нейросети

    Архитектура состоит из двух потоков:

    • Обычный поток (regular stream), который представляет собой любую модель для семантической сегментации;
    • Поток кодирования формы объекта (shape stream), в котором через набор residual blocks, Gated Convolutional Layers (GCL) и обучение с учителем обрабатывается информация о форме объекта 

    Совместная модель затем комбинирует информацию из двух потоков с помощью модуля Atrous Spatial Pyramid Pooling (ASPP). Чтобы границы объекта были точнее, исследователи вводят регуляризатор Dual Task Regularizer

    Визуализация составных частей модели: два потока обработки информации и совместная модель, в которой объединяется информация с двух потоков

    Оценка работы модели

    В качестве базовой модели исследователи брали предобученную нейросеть DeepLabV3+. Это state-of-the-art архитектура для задачи семантической сегментации. Внутри DeepLabV3+ используются ResNet-50, ResNet-101 и WideResNet как базовые модели.

    Модели обучаются на датасете Cityscapes. Все эксперименты проводятся на том же наборе данных. Датасет состоит из изображений 27 городов. В обучающей выборке — 2975 изображений, в валидационной — 500, а в тестовой — 1525.

    Сравнение подходов к семантической сегментации (строки). Мерика — Intersection Over Union (IOU) для разных классов объектов (столбцы) на Cityscapes

    Для сравнения, на изображении с большим количеством людей базовая модель распознает столбы как часть толпы. В то время как GSCNN распознает объекты корректно.

    Выборочный пример сравнения предложенного подхода с state-of-the-art моделью