Google Research представили библиотеку DeepLab2 для задач компьютерного зрения

DeepLab2 — библиотека компьютерного зрения на TensorFlow2 от Google Research. Включает в себя новейшие модели для задач плотного прогнозирования, код обучения и контрольные точки. Доступна на Github.

Зачем нужна библиотека

В компьютерном зрении есть задачи плотного прогнозирования — это задачи, в которых каждому пикселю изображения или видео необходимо присвоить ярлыки. Например, к ним относится семантическая сегментация, когда необходимо выделение точных границ объектов. Глубокая разметка (deep labeling) в названии библиотеки подразумевает решение задач плотного прогнозирования с использованием глубокой нейронной сети.

Предыдущая библиотека DeepLab от Google Research, выпущенная в 2018 году, предназначалась только для семантической сегментации изображений. Теперь разработчики представляют библиотеку DeepLab2, расширенную для других задач плотного прогнозирования. Библиотека переписана под TensorFlow2 и включает:

недавние версии модели DeepLab;
код обучения и оценки модели;
несколько предварительно обученных контрольных точек.

Это позволяет пользователям воспроизводить и дорабатывать state-of-the-art модели.

Перечень задач, решаемых DeepLab2:

семантическая сегментация (выделение точных границ объектов по классам);
сегментация экземпляров (распознание и локализация экземпляров объектов на изображении с точностью до пикселя);
паноптическая сегментация (объединяет две предыдущие задачи. Кроме выделения границ объектов на изображении, экземпляры каждого класса выделяются отдельно);
оценка глубины монокулярного изображения (оценка глубины каждого пикселя);
паноптическая сегментация видео (расширение паноптической сегментации изображения для видео. Обеспечивает идентичность распознанного экземпляра объекта по всей видеопоследовательности);
паноптическая сегментация видео с учетом глубины (каждый пиксель видеоряда помечен семантическим классом, распознанным экземпляром и оценочным значением глубины).

Отличия описанных задач видны на визуализации

Ещё одна визуализация паноптической сегментации

Результаты и прочие особенности

Как показатель эффективности DeepLab2, авторы приводят следующий пример. Модель Panoptic-DeepLab в составе библиотеки достигла 68,0% PQ или 83,5% mIoU при проверке на датасете Cityscapes.

Кроме того, авторам удалось разработать дизайн, который позволяет пользователям разрабатывать нейронные сети, сочетающие блоки свёртки, внимания и трансформеры.

Подробнее о DeepLab2 читайте в статье на arXiv.

Код доступен в репозитории Github.