AdapIS (Adaptive Instance Selection) — это end-to-end нейросеть для instance сегментации объектов на изображении, которая устойчива к разным классам объектов. На вход модель принимает изображение с координатами расположения объекта. На выходе отдает границы объекта. Чтобы сегментировать объекты паноптически, AdapIS используется как дополнение к модели для семантической сегментации. По результатам экспериментов, архитектура обходит state-of-the-art подходы для паноптической сегментации на датасетах Cityscapes и Mapillary без предобучения на COCO.
Паноптическая сегментация объединяет в себе преимущества семантической и instance сегментаций. Код модели доступен по ссылке. Устойчивость модели к разным классам объектов обеспечивается с помощью AdaIN слоев. AdaptIS генерирует маски объектов с точностью до пикселя. Модель справляется с ранее неизвестными типами объектов и наложением объектов друг на друга.
Архитектура нейросети
На вход нейросеть принимает изображение с координатами точки, которая входит в границы объекта. Точка может быть расположена в любой части объекта на изображении. Ниже видно, как влияет расположение точки на результирующую маску объекта.
Архитектура AdaptIS строится поверх базовой предобученной нейросети для извлечения признаков. Составные части модели, помимо предобученной нейросети, включают в себя:
- Нейросеть для предсказания границ объектов с AdaIN механизмом;
- Контроллер-нейросеть, которая принимает данные точки объекта, обрабатывает их через полносвязные слои и выдает входные данные для AdaIN слоев в нейросети из первого пункта;
- Relative CoordConv блок, который помогает различить схожие объекты, расположенные на разных позициях на изображении
Поверка работы нейросети
Исследователи сравнили state-of-the-art решения для паноптической сегментации на нескольких задачах. Ниже результаты AdaptIS на валидационном сете Cityscapes.
Ниже видно, как AdaptIS справляется с instance сегментация на искусственных данных:
- валидационные изображения;
- маски объектов, которые выдает Mask R-CNN;
- результаты AdaptIS;
- пример изображения с большим количеством объектов (сверху) и результат сегментации с помощью AdaptIS (снизу)
Особенностью Mask R-CNN является сниженная точность предсказаний, когда объекты накладываются друг на друга. Ниже видно, что AdaptIS более устойчива к наложениям объектов. На примере d модель верно разметила 234 из 250 объектов.