EOLO — это single-shot нейросеть для instance сегментации объектов на изображении. Модель является полностью сверточной и состоит из 3 независимых частей. Ключевое преимущество EOLO — возможность внедрить модель на мобильные и встраиваемые устройства. Нейросеть получает 27.7% mAP на COCO2017. При этом EOLO работает со скоростью 30 кадров в секунду на 1080Ti GPU.
Исследователи разбивают проблему instance сегментации на две подзадачи: предсказание семантической маски и распознавание перекрывающихся объектов. Такая формулировка задачи возможна при помощи классификации центра объекта и регрессии 4D расстояния для каждого пикселя. Кроме того, исследователи предлагают новую функцию потерь, которая позволяет точно семплировать примеры центров объектов и оптимизировать регрессию 4D расстояния.
Архитектура модели
EOLO состоит из:
- Базовой сети Mobilenetv3;
- Feature Pyramid сети;
- Трех блоков, которые последовательно решают три задачи: предсказание центра объекта, предсказание 4D размера и сегментация
Mobilenetv3 принимает на вход 512×512 матрицу с тремя RGB каналами и выдает карту признаков. Feature Pyramid сеть уменьшает размерность карты признаков. Признаки меньшей размерности затем проходят через три блока модели. На выходе модель генерирует instance маску сегментации объектов.
Оценка работы модели
Исследователи сравнили EOLO с state-of-the-art подходами для instance сегментации. Ниже видно, что предложенная нейросеть выступает сравнимо или хуже в сравнении с предыдущими подходами.