Reasoning-RCNN: нейросеть распознает объекты из тысяч категорий

Reasoning-RCNN детектирует трудно различимые объекты на изображении и работает поверх любого детектора. Reasoning-RCNN улучшает state-of-the-art результаты для нескольких соревнований: на 16% для VisualGenome, на 37% для ADE и на 15% для COCO. Исследователи представят модель на конференции по компьютерному зрению CVPR 2019.

Решение задачи крупномасштабного распознавания объектов

Проблема крупномасштабного распознавания объектов заключается в детектировании объекта на изображении из тысяч возможных категорий. Сложности задачи в том, что распределение данных по категориям чаще всего неравномерное и в каких-то случаях различия между классами могут быть мелкие. Стандартный подход к распознаванию объектов не учитывает семантической близости между классами. Например, воробей и голубь принадлежат к более крупному классу — птицы. Reasoning-RCNN — это архитектура, которая позволяет к любой нейросети для распознавания объектов добавить блок с адаптивным глобальным мышлением (adaptive global reasoning).

Архитектура модели

Предлагаемый подход работает поверх любого существующего детектора. В статье исследователи используют как базовый детектор Faster RCNN. Веса базового классификатора используются для генерации семантического пространства категорий объектов. Это пространство в виде графа знаний подается на вход модулю adaptive global reasoning. Выход модуля adaptive global reasoning сопоставляется с частями изображения с помощью механизма soft-mapping.

Обучение модели можно разделить на шаги:

Сначала создается глобальное семантическое пространство, которое описывает все категории объектов в выборке;
Затем на основе семантического пространства, механизма внимания и графа знаний для входного изображения создается ненаправленный граф с характеристиками изначально распознанных объектов (связью объединены те категории, которые близки семантически);
Начальные характеристики объектов и расширенные (с помощью графа знаний и семантического пространства) объединяются;
Характеристики попадают в слои для детектирования границ и классов объектов

Визуализация составных компонентов нейросети

Оценка работы модели

Эксперименты для Reasoning-RCNN проводились на задачах для крупномасштабного распознавания объектов: Visual Genome (VG) и ADE. Кроме этого, исследователи оценили работу нейросети на данных PASCAL VOC 2007 и MSCOCO 2017. Это было сделано для того, чтобы показать, как нейросеть справляется с распознаванием меньшего числа категорий (20 и 80 соответственно). Задача — найти границы объекта и его категорию. При этом разметки у трудно различимых объектов на изображениях нет.

Reasoning-RCNN обходит state-of-the-art детекторы: Faster R-CNN, RetinaNet, RelationNet и DetNet. Reasoning-RCNN улучшает текущий лучший результат на 15% для VG (1000 категорий), на 16% для VG (3000 категорий), на 37% для ADE, на 15% для MS-COCO и на 2% для Pascal VOC.