Масштабированная модель сегментации для более чем 1 тысячи классов

Исследователи из Computer Vision Lab в ETH Zurich предлагают метод обучения и масштабирования существующих моделей семантической сегментации. Метод работает для датасетов с большим количеством семантических классов без увеличения нагрузок на память.

В чем проблема

State-of-the-art модели для распознавания объектов и классификации изображений хорошо работают для датасетов с 9-10 тысячами классов. Однако количество классов в датасетах семантической сегментации ограничено. Это связано со сложностями в разметке и получении данных.

Подробнее про подход

Предложенный подход для масштабирования сегментации основан на эмбеддингах. Сложность пространства выходов модели сегментации сокращается с O(C) до O(1). Кроме того, исследователи предлагают метод для аппроксимации вероятностей классов. Предложенный подход является универсальным и может использоваться в любой state-of-the-art модели сегментации. Подход полезен в том случае, если требуется решить задачу с большим количеством семантических классов на одной GPU.

Тестирование подхода

Метод тестировали на датасетах Cityscapes, Pascal VOC, ADE20k и COCOStuff10k. Он выдает схожие результаты с стандартной DeeplabV3+ моделью. На датасете с 1284 классами он выдает в три раза более точные предсказания (mIoU), чем DeeplabV3+ модель.

Код проекта доступен в открытом репозитории на GitHub.