f-BRS: интерактивная сегментация объектов на изображении

Samsung AI опубликовали схему обучения модели для интерактивной сегментации. Пользователь указывает курсором на объект, а модель выдает предсказания границ объекта.

В чем проблема

Ограничение существующих подходов в том, что они не масштабируются на неизвестные объекты даже при наличии большого количества подсказок от пользователя. Недавно предложенная backpropagating refinement scheme (BRS) позволяет улучшить работу моделей на неизвестных объектов. Однако ее недостаток заключается в вычислительной неэффективности. Исследователи предлагают f-BRS (feature backpropagating refinement scheme), которая позволяет сократить forward и backward вычисления. Исходный код и обученные модели доступны в открытом репозитории на GitHub.

Архитектура модели

Подход состоит из трех ключевых компонентов: f-BRS-A, f-BRS-B и f-BRS-C. f-BRS-A оптимизирует масштаб и смещение для признаком после предобученной базовой модели. f-BRS-B оптимизиррует масштаб и смещение для признаков после ASPP. f-BRS-C оптимизирует масштаб и смещение для признаком после первого сверточного блока.

Оценка работы модели

Исследователи протестировали подход на датасетах GrabCut, Berkeley, DAVIS и SBD. Предложенный метод f-BRS обходит существующие state-of-the-art подходы. При этом, в сравнении с оригинальной BRS, предложенная схема на порядок быстрее выдает предсказания.