SipMask: новый state-of-the-art в instance сегментации

SipMask — это одноступенчатая нейросеть для instance сегментации объектов на изображении. Модель обходит предыдущие одноступенчатые state-of-the-art подходы на датасете COCO test-dev. В сравнении с TensorMask, SipMask дает прирост AP в 1%. При этом модель выдает предсказания в 4 раза быстрее. Модель обходит YOLACT на 3% по AP. Исходный код проекта доступен в репозитории на GitHub.

Подробнее про модель

Особенностью архитектуры нейросети является новый модуль spatial preservation (SP). SP модуль представляет собой механизм пулинга признаков в одноступенчатой модели сегментации. Идея модуля в том, что бы сохранить пространственную информацию об объекте.

Модель основывается на архитектуре FCOS. Однако две стандартные ветки классификации и регрессии заменили на специализирующиеся на масках классификацию и регрессию, чтобы адаптировать модель для instance сегментации. Блок классификации предсказывает скоры классов и присваивает пространственные коэффициенты для регионов границ объектов. Затем эти коэффициенты используются SP для предсказания отдельных масок.

Тестирование модели

Исследователи валидировали модель на тестовом датасете COCO. В сравнении с state-of-the-art одноступенчатыми подходами для instance сегментации SipMask выдает более точные предсказания.

Детали архитектуры и экспериментов доступны в оригинальной статье.