fbpx
  • Reasoning-RCNN: нейросеть распознает объекты из тысяч категорий

    Reasoning-RCNN детектирует трудно различимые объекты на изображении и работает поверх любого детектора. Reasoning-RCNN улучшает state-of-the-art результаты для нескольких соревнований: на 16% для VisualGenome, на 37% для ADE и на 15% для COCO. Исследователи представят модель на конференции по компьютерному зрению CVPR 2019.

    Решение задачи крупномасштабного распознавания объектов

    Проблема крупномасштабного распознавания объектов заключается в детектировании объекта на изображении из тысяч возможных категорий. Сложности задачи в том, что распределение данных по категориям чаще всего неравномерное и в каких-то случаях различия между классами могут быть мелкие. Стандартный подход к распознаванию объектов не учитывает семантической близости между классами. Например, воробей и голубь принадлежат к более крупному классу — птицы. Reasoning-RCNN — это архитектура, которая позволяет к любой нейросети для распознавания объектов добавить блок с адаптивным глобальным мышлением (adaptive global reasoning).

    Архитектура модели

    Предлагаемый подход работает поверх любого существующего детектора. В статье исследователи используют как базовый детектор Faster RCNN.  Веса базового классификатора используются для генерации семантического пространства категорий объектов. Это пространство в виде графа знаний подается на вход модулю adaptive global reasoning. Выход модуля adaptive global reasoning сопоставляется с частями изображения с помощью механизма soft-mapping.

    Обучение модели можно разделить на шаги:

    1. Сначала создается глобальное семантическое пространство, которое описывает все категории объектов в выборке;
    2. Затем на основе семантического пространства, механизма внимания и графа знаний для входного изображения создается ненаправленный граф с характеристиками изначально распознанных объектов (связью объединены те категории, которые близки семантически);
    3. Начальные характеристики объектов и расширенные (с помощью графа знаний и семантического пространства) объединяются;
    4. Характеристики попадают в слои для детектирования границ и классов объектов
    Визуализация составных компонентов нейросети

    Оценка работы модели

    Эксперименты для Reasoning-RCNN проводились на задачах для крупномасштабного распознавания объектов: Visual Genome (VG) и ADE. Кроме этого, исследователи оценили работу нейросети на данных PASCAL VOC 2007 и MSCOCO 2017. Это было сделано для того, чтобы показать, как нейросеть справляется с распознаванием меньшего числа категорий (20 и 80 соответственно). Задача — найти границы объекта и его категорию. При этом разметки у трудно различимых объектов на изображениях нет.

    Reasoning-RCNN обходит state-of-the-art детекторы: Faster R-CNN, RetinaNet, RelationNet и DetNet. Reasoning-RCNN улучшает текущий лучший результат на 15% для VG (1000 категорий), на 16% для VG (3000 категорий), на 37% для ADE, на 15% для MS-COCO и на 2% для Pascal VOC.

    Сравнение среднего Average Precision (mAP) на данных PASCAL VOC и MSCOCO. “Reasoning-RCNNA”/“ReasoningRCNNR” — это Faster-RCNN + блоки с атрибутивным и релятивным знанием