fbpx
  • Пирамидальная сеть от FAIR показала state-of-the-art результаты в сегментации изображений

    segmentation

    Исследователи из Facebook AI Research представили нейросеть Panoptic FPN для сегментации объектов на изображении, которая обходит конкурирующие модели в эффективности.

    Panoptic FPN показала state-of-the-art результаты в задачах как семантической, так и в instance и panoptic сегментаций.

    Описание проблемы

    Для детектирования объектов на изображении активно используются три подхода:

    1. Семантическая сегментация (выделяет разные классы объектов на изображении, включая среду);
    2. Instance сегментация (разделяет объекты одного класса на разные объекты);
    3. Panoptic сегментация (объединяет в себе преимущества семантической и istance сегментаций).

    Различия подходов к детектированию объектов на изображении

    Обычно для паноптической сегментации сначала тренируют сеть, которая отвечает за семантическую сегментацию объектов, и затем сеть, которая отвечает за instance-детектирование. Исследователи предлагают единую архитектуру для решения задачи паноптической сегментации.

    Архитектура Panoptic FPN

    Нейросеть состоит из трех основных компонетнов:

    1. Feature Pyramid Network (FPN), которая широко используется для задачи детектирования объектов, чтобы получить многоуровневые характеристики из изображения;
    2. Дополнительно к FPN добавляется слой для Instance Segmentation;
    3. Поверх FPN накладывается Semantic Segmentation слои.

    Концептуально исследователи предлагают расширенную версию Mask R-CNN с добавлением FPN. Расширенная Mask R-CNN работает как бейзлайн архитектура для семантической, instance и паноптической сегментации.

    Схема расширенной Mask R-CNN с FPN

    Результаты экспериментов

    Целью экспериментов было доказать, что Panoptic FPN работает одинаково хорошо на трех задачах как single-network решение (без ансамблирования моделей). Поэтому модели для сравнения тоже выбирались среди текущих single-network SOTA решений.

    Чтобы протестировать то, как Panoptic FPN справляется с задачей паноптической сегментации, исследователи сравнили ее с топом лидерборда соревнования COCO. В основе Panoptic FPN лежала ResNet-101. По результатам, Panoptic FPN выступила лучше, чем остальные архитектуры, примерно на 9 пунктов по PQ метрике.

    Сравнения работы архитектур по Panoptic Quality метрике (чем выше, тем точнее модель)
    Пример работы Panoptic FPN на датасете COCO