EfficientPS — это нейросетевая модель для паноптической сегментации объектов на изображении. На данный момент модель обходит state-of-the-art подходы на датасетах Cityscapes, KITTI, Mapillary Vistas и IDD.
Паноптическая сегментация
Одним из подходов к оценке сцены изображения является паноптическая сегментация. Цель паноптической сегментации заключается в том, что бы использовать одну сверточную сеть одновременно для распознавания объектов и на переднем плане, и на заднем плане изображения. Паноптическая сегментация объединяет в себе семантическую и instance сегментации.
Ограничения текущих подходов для паноптической сегментации заключаются в вычислительной неэффективности, медленном обучении и нестабильности результатов моделей. EfficientPS разрабатывали, чтобы обойти эти ограничения. Модель выдает более точные результаты в сравнении с state-of-the-art. При этом она быстрее обучается.
Что внутри EfficientPS
Архитектура модели состоит из следующих компонентов:
- Общая базовая модель, которая основывается на EfficientNet;
- Двухсторонняя FPN;
- Семантический модуль (semantic head);
- Сверточный instance модуль, который основан на Mask R-CNN;
- Паноптический модуль, который объединяет результаты семантического и instance модулей
Оценка работы модели
Исследователи оценили работу EfficientPS на 4 датасетах с изображениями улиц: Cityscapes, Mapillary Vistas, KITTI и IDD. EfficientPS обошла state-of-the-art подходы для паноптической сегментации на датасете Cityscapes. При этом предложенный подход требует меньшего количества параметров и вычислительных ресурсов и быстрее работает на инференсе. Для датасетов Mapillary Vistas, KITTI и IDD EfficientPS выдает сравнимый с state-of-the-art результаты.