DeepLab2 — библиотека компьютерного зрения на TensorFlow2 от Google Research. Включает в себя новейшие модели для задач плотного прогнозирования, код обучения и контрольные точки. Доступна на Github.
Зачем нужна библиотека
В компьютерном зрении есть задачи плотного прогнозирования — это задачи, в которых каждому пикселю изображения или видео необходимо присвоить ярлыки. Например, к ним относится семантическая сегментация, когда необходимо выделение точных границ объектов. Глубокая разметка (deep labeling) в названии библиотеки подразумевает решение задач плотного прогнозирования с использованием глубокой нейронной сети.
Предыдущая библиотека DeepLab от Google Research, выпущенная в 2018 году, предназначалась только для семантической сегментации изображений. Теперь разработчики представляют библиотеку DeepLab2, расширенную для других задач плотного прогнозирования. Библиотека переписана под TensorFlow2 и включает:
- недавние версии модели DeepLab;
- код обучения и оценки модели;
- несколько предварительно обученных контрольных точек.
Это позволяет пользователям воспроизводить и дорабатывать state-of-the-art модели.
Перечень задач, решаемых DeepLab2:
- семантическая сегментация (выделение точных границ объектов по классам);
- сегментация экземпляров (распознание и локализация экземпляров объектов на изображении с точностью до пикселя);
- паноптическая сегментация (объединяет две предыдущие задачи. Кроме выделения границ объектов на изображении, экземпляры каждого класса выделяются отдельно);
- оценка глубины монокулярного изображения (оценка глубины каждого пикселя);
- паноптическая сегментация видео (расширение паноптической сегментации изображения для видео. Обеспечивает идентичность распознанного экземпляра объекта по всей видеопоследовательности);
- паноптическая сегментация видео с учетом глубины (каждый пиксель видеоряда помечен семантическим классом, распознанным экземпляром и оценочным значением глубины).
Результаты и прочие особенности
Как показатель эффективности DeepLab2, авторы приводят следующий пример. Модель Panoptic-DeepLab в составе библиотеки достигла 68,0% PQ или 83,5% mIoU при проверке на датасете Cityscapes.
Кроме того, авторам удалось разработать дизайн, который позволяет пользователям разрабатывать нейронные сети, сочетающие блоки свёртки, внимания и трансформеры.
Подробнее о DeepLab2 читайте в статье на arXiv.
Код доступен в репозитории Github.