AdapIS: нейросеть для адаптивной instance сегментации изображения

AdapIS (Adaptive Instance Selection) — это end-to-end нейросеть для instance сегментации объектов на изображении, которая устойчива к разным классам объектов. На вход модель принимает изображение с координатами расположения объекта. На выходе отдает границы объекта. Чтобы сегментировать объекты паноптически, AdapIS используется как дополнение к модели для семантической сегментации. По результатам экспериментов, архитектура обходит state-of-the-art подходы для паноптической сегментации на датасетах Cityscapes и Mapillary без предобучения на COCO.

Паноптическая сегментация объединяет в себе преимущества семантической и instance сегментаций. Код модели доступен по ссылке. Устойчивость модели к разным классам объектов обеспечивается с помощью AdaIN слоев. AdaptIS генерирует маски объектов с точностью до пикселя. Модель справляется с ранее неизвестными типами объектов и наложением объектов друг на друга.

Архитектура нейросети

На вход нейросеть принимает изображение с координатами точки, которая входит в границы объекта. Точка может быть расположена в любой части объекта на изображении. Ниже видно, как влияет расположение точки на результирующую маску объекта.

Различия результатов модели в зависимости от разных входных данных

Архитектура AdaptIS строится поверх базовой предобученной нейросети для извлечения признаков. Составные части модели, помимо предобученной нейросети, включают в себя:

Нейросеть для предсказания границ объектов с AdaIN механизмом;
Контроллер-нейросеть, которая принимает данные точки объекта, обрабатывает их через полносвязные слои и выдает входные данные для AdaIN слоев в нейросети из первого пункта;
Relative CoordConv блок, который помогает различить схожие объекты, расположенные на разных позициях на изображении

Поверка работы нейросети

Исследователи сравнили state-of-the-art решения для паноптической сегментации на нескольких задачах. Ниже результаты AdaptIS на валидационном сете Cityscapes.

Количественное сравнение AdaptIS с конкурирующими архитектурами на датасете Cityscapes

Ниже видно, как AdaptIS справляется с instance сегментация на искусственных данных:

валидационные изображения;
маски объектов, которые выдает Mask R-CNN;
результаты AdaptIS;
пример изображения с большим количеством объектов (сверху) и результат сегментации с помощью AdaptIS (снизу)

Особенностью Mask R-CNN является сниженная точность предсказаний, когда объекты накладываются друг на друга. Ниже видно, что AdaptIS более устойчива к наложениям объектов. На примере d модель верно разметила 234 из 250 объектов.

Результаты instance сегментации для сгенерированных данных

Сверточная нейросеть Сегментация

Архитектура нейросети

Поверка работы нейросети

Читайте также