End-to-end нейросеть для детектирования объектов на изображении

Исследователи из Megvii Technology и Xi’an Jiaotong University предложили архитектуру end-to-end сверточного детектора объектов, который не использует NMS. Реализация модели доступна в открытом репозитории на GitHub.

NMS в прошлых моделях

Детекторы объектов, которые основываются на сверточных нейросетях, активно используются в задачах компьютерного зрения. Большинство таких моделей — это полносверточные нейросети, которые используют один последний шаг NMS или non-maximum suppression. Этот последний шаг в постобработке не позволяет полноценного end-to-end обучения таких детекторов.

Подробнее про модель

Идея метода базируется на факте, что присвоение лейблов может привести к end-to-end single prediction learning. Исследователи предлагают подход к присвоению лейблов POTO (Prediction-aware One-to-One). В POTO лейблы динамически присваиваются во время обучения в соответствии с качеством предсказаний. Исследователи также ввели новый модуль 3D Max фильтрации для фильтрации повторных предсказаний.

Оценка работы модели

Чтобы оценить модель, исследователи протестировали ее работу на датасетах: COCO и CrowdHuman. По результатам экспериментов, модель выдает сравнимые с state-of-the-art результаты. При этом модель обходит по качеству предсказаний альтернативные end-to-end детекторы объектов.