SipMask — это одноступенчатая нейросеть для instance сегментации объектов на изображении. Модель обходит предыдущие одноступенчатые state-of-the-art подходы на датасете COCO test-dev. В сравнении с TensorMask, SipMask дает прирост AP в 1%. При этом модель выдает предсказания в 4 раза быстрее. Модель обходит YOLACT на 3% по AP. Исходный код проекта доступен в репозитории на GitHub.
Подробнее про модель
Особенностью архитектуры нейросети является новый модуль spatial preservation (SP). SP модуль представляет собой механизм пулинга признаков в одноступенчатой модели сегментации. Идея модуля в том, что бы сохранить пространственную информацию об объекте.
Модель основывается на архитектуре FCOS. Однако две стандартные ветки классификации и регрессии заменили на специализирующиеся на масках классификацию и регрессию, чтобы адаптировать модель для instance сегментации. Блок классификации предсказывает скоры классов и присваивает пространственные коэффициенты для регионов границ объектов. Затем эти коэффициенты используются SP для предсказания отдельных масок.
Тестирование модели
Исследователи валидировали модель на тестовом датасете COCO. В сравнении с state-of-the-art одноступенчатыми подходами для instance сегментации SipMask выдает более точные предсказания.
Детали архитектуры и экспериментов доступны в оригинальной статье.