fbpx
  • Pytorch выпустили обновление библиотеки для компьютерного зрения torchvision 0.3

    Библиотека torchvision с инструментами для компьютерного зрения на Pytorch обновилась до версии 0.3. В обновленной версии был расширен список доступных моделей для распознавания объектов, семантической/instance сегментаций и распознавания опорных точек позы человека. Кроме расширения списка моделей, стали доступны новые C++ / CUDA операторы.

    В новой версии теперь доступны базовые скрипты для обучения и оценки результатов моделей для решения задач классификации, семантической/instance сегментаций, распознавания объектов и опорных точек позы человека. Скрипты содержат примеры использования моделей и позволяют быстрее получить начальные результаты по поставленной задаче.

    Примеры новых C++ / CUDA операторов, специфичных для работы с задачами компьютерного зрения:

    • roi_pool (RoIPool);
    • roi_align (RoIAlign);
    • nms (метод пост-обработки изображения, когда оптимизируются границы объектов на изображении так, чтобы на каждый объект имел свои границы);
    • box_iou (для расчета IoU метрики по границам объектов на изображениях — bounding boxes);
    • box_area (так же, как и предыдущий оператор, помогает в выборе оптимальных границ объектов на изображении)

    В библиотеку были добавлены следующие модели.

    Сегментация объектов

    Теперь доступны модели для попиксельного предсказания изображений. Были добавлены такие модели для сегментации, как FCN и DeepLabV3. Предобученные на датасете COCO веса для ResNet101 доступны публично.

    Результаты моделей, предобученных на COCO val2017

     

    Распознавание объектов

    Были добавлены более быстрые версии моделей для распознавания объектов и опорных точек позы человека: Faster R-CNN, Mask R-CNN, Keypoint R-CNN.

    Скорость работы моделей, предобученных на COCO val2017

     

    Классификация изображений

    Библиотеку пополнили следующие модели для задачи классификации изображений:

    Новые датасеты с изображениями

    Помимо расширения списка моделей, в библиотеку были добавлены новые датасеты:

    Полный список обновлений доступен по ссылке. В открытом доступе есть тьюториалы для работы с библиотекой.