fbpx
  • Google Research представили библиотеку DeepLab2 для задач компьютерного зрения

    DeepLab2 — библиотека компьютерного зрения на TensorFlow2 от Google Research. Включает в себя новейшие модели для задач плотного прогнозирования, код обучения и контрольные точки. Доступна на Github.

    Зачем нужна библиотека

    В компьютерном зрении есть задачи плотного прогнозирования — это задачи, в которых каждому пикселю изображения или видео необходимо присвоить ярлыки. Например, к ним относится семантическая сегментация, когда необходимо выделение точных границ объектов. Глубокая разметка (deep labeling) в названии библиотеки подразумевает решение задач плотного прогнозирования с использованием глубокой нейронной сети.

    Предыдущая библиотека DeepLab от Google Research, выпущенная в 2018 году, предназначалась только для семантической сегментации изображений. Теперь разработчики представляют библиотеку DeepLab2, расширенную для других задач плотного прогнозирования. Библиотека переписана под TensorFlow2 и включает:

    • недавние версии модели DeepLab;
    • код обучения и оценки модели;
    • несколько предварительно обученных контрольных точек.

    Это позволяет пользователям воспроизводить и дорабатывать state-of-the-art модели.

    Перечень задач, решаемых DeepLab2:

    • семантическая сегментация (выделение точных границ объектов по классам);
    • сегментация экземпляров (распознание и локализация экземпляров объектов на изображении с точностью до пикселя);
    • паноптическая сегментация (объединяет две предыдущие задачи. Кроме выделения границ объектов на изображении, экземпляры каждого класса выделяются отдельно);
    • оценка глубины монокулярного изображения (оценка глубины каждого пикселя);
    • паноптическая сегментация видео (расширение паноптической сегментации изображения для видео. Обеспечивает идентичность распознанного экземпляра  объекта по всей видеопоследовательности);
    • паноптическая сегментация видео с учетом глубины (каждый пиксель видеоряда помечен семантическим классом, распознанным экземпляром и оценочным значением глубины).
    Отличия описанных задач видны на визуализации
    Ещё одна визуализация паноптической сегментации

    Результаты и прочие особенности

    Как показатель эффективности DeepLab2, авторы приводят следующий пример. Модель Panoptic-DeepLab в составе библиотеки достигла 68,0% PQ или 83,5% mIoU при проверке на датасете Cityscapes.

    Кроме того, авторам удалось разработать дизайн, который позволяет пользователям разрабатывать нейронные сети, сочетающие блоки свёртки, внимания и трансформеры.

    Подробнее о DeepLab2 читайте в статье на arXiv.

    Код доступен в репозитории Github.

    Подписаться
    Уведомить о
    guest
    0 Comments
    Межтекстовые Отзывы
    Посмотреть все комментарии