fbpx
  • CFBI: коллаборативная сегментация объектов на видеозаписи

    CFBI — это нейросеть, которая сегментирует объекты на заднем и переднем планах в видеозаписи. Нейросеть обучалась частично с привлечением размеченных данных (semi-supervised). CFBI отличается от предыдущих подходов тем, что модель учитывает эмбеддинги на уровне пикселя и объекта при предсказании. Модель обходит state-of-the-art подходы на датасетах DAVIS 2016, DAVIS 2017 и YouTube-VOS. Код проекта доступен в репозитории на GitHub.

    Архитектура модели

    Пайплан работы модели во время обучения состоит из следующих шагов:

    1. Сначала из первого, предыдущего и текущего кадров извлекаются эмбеддинги уровня пикселей. Эмбеддинги извлекают из предобученной базовой (backbone) сети;
    2. Затем эмбеддинги первого и предыдущего кадров разделяются на пиксели заднего и переднего фонов. Разделение основывается на масках кадров;
    3. После этого используются модуль соотнесения переднего и заднего планов и механизм внимания, который помогает коллаборативной сети сгенерировать предсказание

    Особенность CFBI заключается в том, что модель для предсказания использует эмбеддинги двух уровней: пикселя и инстанса. Кроме того, исследователи предлагают коллаборативный метод для учета объектов, которые находятся на заднем фоне кадра.

    Визуализация составных частей нейросети

    В качестве базовой сети использовали DeepLabv3+ с Resnet-101. Базовую модель предобучали на ImageNet и COCO.

    Оценка работы нейросети

    Исследователи сравнили предложенный подход с прошлой state-of-the-art моделью STMVOS. Модели сравнивали на датасете DAVIS 2017. Ниже видно, что STMVOS на выборочных кадрах выдает менее консистентные во времени предсказания, чем CFBI.

    Сравнение CFBI с state-of-the-art подходом STMVOS на датасете DAVIS 2017