CBNet: нейросетевая архитектура для распознавания объектов

В существующих детекторах, которые основываются на сверточных нейросетях, основная сеть архитектуры играет важную роль. Выбор основной сети архитектуры (backbone network) влияет на качество модели. Исследователи предлагают улучшить качество модели с помощью новой основной сети, которая объединяет в себе множество основных сетей. CBNet соединяет в себе множество идентичных основных сетей.

CBNet итеративно поставляет выход признаков из прошлой основной сети на вход следующей основной сети. В итоге последняя основная сеть (Lead Backbone) используется для распознавания объектов. Такая архитектура позволяет кодировать признаки разного уровня. CBNet можно интегрировать в большинство state-of-the-art детекторов. По результатам экспериментов, модели с CBNet в основе обходят модели с другими основными сетями. На задаче MSCOCO одна CBNet модель выдавала предсказания с средней точностью (mAP) в 53.3%. Код архитектуры доступен по ссылке.

Архитектура модели

CBNet объединяет в себе множество идентичных основных сетей (Assistant Backbones and Lead Backbone). Сети между собой соединяются через композитные связи. На последней итерации модель выдает признаки Lead Backbone, которые используются для распознавания объектов.

Каждая основная сеть состоит из L этапов. Обычно количество этапов равно 5. Каждый этап сети состоит из нескольких сверточных слоев с картами признаков одного размера.

Проверка работы модели

Исследователи сравнили предложенную CBNet с двумя (Dual-ResNeXt152) и тремя основными сетями (Triple-ResNeXt152). В качестве датасета выбрали стандартный набор данных для задач компьютерного зрения MSCOCO. Ниже видно, что нейросети с CBNet в основе обходят конкурирующие подходы.