fbpx
  • State-of-the-art нейросеть для семантической сегментации с частичным привлечением учителя

    Нейросеть обучили семантически сегментировать объекты на изображении, имея только лейблы классов объектов без попиксельной разметки. Модель итеративно выучивает схожесть пикселей и выдает более правдоподобные маски объектов. Предложенный подход обходит предыдущие модели, которые обучаются в weakly-supervised манере.

    При семантической сегментации на ограниченном количестве размеченных данных модель не получает попиксельно размеченную информацию об объектах на изображении. Предыдущие подходы использовали сети классификации, чтобы локализовать объекты через выбор зон на изображении с высокой вероятностью.

    Архитектура модели

    Исследователи решают задачу семантической сегментации на ограниченном сете размеченных данных (weakly-supervised semantic segmentation) с помощью итеративного алгоритма оптимизации. Алгоритм прогрессивно выучивает устойчивые сходства между пикселям и распространяет информацию о лейблах между пикселями. Целевая функция алгоритма максимизирует вероятность верных классов объектов на изображении. Это отличается от сегментации с учителем, которая требует разметку верных классов.

    Предложенный подход основан на EM-алгоритме, который выучивает параметры двух подсетей: 

    • Нейросети для унарной сегментации, которая предсказывает карту вероятностей входного изображения;
    • Сети для поиска сходства пикселей, которая выучивает матрицу сходства пикселей

    Матрица сходства пикселей (affinity matrix) хранит в себе близость между пикселями и широко используется в задаче сегментации объектов. Выученные сходства применяются для сегментации объектов входного изображения. Маски сегментации затем используются для дообучения унарной сети. Процедуры повторяются итеративно, чтобы модель выучивала более достоверные сходства пикселей и выдавала более точные границы объектов.

    Визуализация структуры модели
    Алгоритм обучения модели

    Тестирование работы нейросети

    Алгоритм оценивали на датасетах PASCAL VOC 2012 и COCO. На PASCAL VOC 2012 предложенную модель сравнивали с state-of-the-art weakly-supervised подходами для семантической сегментации. Ниже видно, что предложенный алгоритм более точно сегментирует объекты на изображениях в сравнении с предыдущими моделями.

    Сравнение итоговых сегментаций на отдельных примерах