fbpx
  • BlendMask: нейросеть обходит state-of-the-art на задаче сегментации объектов

    BlendMask — это нейросетевая модель для instance сегментации объектов на изображении. Модель выдает более точные границы объектов, чем Mask R-CNN, на COCO датасете при схожих параметрах обучения. При этом BlendMask работает на 20% быстрее.

    Instance сегментация — одна из основных задач компьютерного зрения. В последнее время для решения этой задачи стали популярны полноценно сверточные нейросети. Их преимущество заключается в простоте и эффективности в сравнении с двухступенчатыми подходами, как Mask R-CNN. Предложенная модель более точно предсказывает маски объектов, чем state-of-the-art подходы. BlendMask комбинирует информацию на уровне отдельных объектов и семантическую информацию для предсказания маски объекта. Ключевое отличие BlendMask от предыдущих подходов — blender модуль, который вдохновлен снизу-вверх и сверху-вниз подходами для instance сегментации. Blender модуль является ключевой составляющей архитектуры BlendMask. Блок выучивает информацию об отдельных объектах изображения и признаки пикселей.

    Как это работает 

    BlendMask выучивает карты внимания объектов за один сверточный слой, что делает ее быстрой при использовании в продукте. Модель можно внедрить в любой одноступенчатый фреймворк для распознавания объектов. Модель по метрикам обходит Mask R-CNN при обучении со схожими параметрами. При этом BlendMask обучается на 20% быстрее.

    Предложенная BlendMask архитектура состоит из нейросети для распознавания объекта и блока для предсказания маски объекта. Блок для предсказания маски состоит из трех частей:

    • Нижний модуль, который выдает score maps;
    • Верхний слой, который предсказывает карты внимания объектов
    • Blender модуль, который объединяет score карты и карты внимания

    Модель основывается на FCOS архитектуре для детектирования объектов. FCOS подход основывается на полностью сверточной одноступенчатой архитектуре. Нижний модуль использует либо базовую нейросеть (backbone), либо признаки из FPN для предсказания набора баз объектов. Поверх модуля с детектированием добавляется однослойная нейросеть, которая выдает карты внимания и предсказания границ объектов. Для каждого предсказанного объекта blender модуль обрезает базы по предсказанным границам объекта и линейно комбинирует их с помощью выученных карт внимания. 

    Составные части архитектуры BlendMask

    Тестирование работы модели

    Исследователи сравнили работу BlendMask с Mask R-CNN и TensorMask. Ниже видно, что на COCO датасете BlendMask выдает предсказания масок объектов с mAP 37%.

    Количественные результаты сравнения моделей на датасете COCO test-dev