CFBI: коллаборативная сегментация объектов на видеозаписи

CFBI — это нейросеть, которая сегментирует объекты на заднем и переднем планах в видеозаписи. Нейросеть обучалась частично с привлечением размеченных данных (semi-supervised). CFBI отличается от предыдущих подходов тем, что модель учитывает эмбеддинги на уровне пикселя и объекта при предсказании. Модель обходит state-of-the-art подходы на датасетах DAVIS 2016, DAVIS 2017 и YouTube-VOS. Код проекта доступен в репозитории на GitHub.

Архитектура модели

Пайплан работы модели во время обучения состоит из следующих шагов:

Сначала из первого, предыдущего и текущего кадров извлекаются эмбеддинги уровня пикселей. Эмбеддинги извлекают из предобученной базовой (backbone) сети;
Затем эмбеддинги первого и предыдущего кадров разделяются на пиксели заднего и переднего фонов. Разделение основывается на масках кадров;
После этого используются модуль соотнесения переднего и заднего планов и механизм внимания, который помогает коллаборативной сети сгенерировать предсказание

Особенность CFBI заключается в том, что модель для предсказания использует эмбеддинги двух уровней: пикселя и инстанса. Кроме того, исследователи предлагают коллаборативный метод для учета объектов, которые находятся на заднем фоне кадра.

В качестве базовой сети использовали DeepLabv3+ с Resnet-101. Базовую модель предобучали на ImageNet и COCO.

Оценка работы нейросети

Исследователи сравнили предложенный подход с прошлой state-of-the-art моделью STMVOS. Модели сравнивали на датасете DAVIS 2017. Ниже видно, что STMVOS на выборочных кадрах выдает менее консистентные во времени предсказания, чем CFBI.