Библиотека torchvision с инструментами для компьютерного зрения на Pytorch обновилась до версии 0.3. В обновленной версии был расширен список доступных моделей для распознавания объектов, семантической/instance сегментаций и распознавания опорных точек позы человека. Кроме расширения списка моделей, стали доступны новые C++ / CUDA операторы.
В новой версии теперь доступны базовые скрипты для обучения и оценки результатов моделей для решения задач классификации, семантической/instance сегментаций, распознавания объектов и опорных точек позы человека. Скрипты содержат примеры использования моделей и позволяют быстрее получить начальные результаты по поставленной задаче.
Примеры новых C++ / CUDA операторов, специфичных для работы с задачами компьютерного зрения:
- roi_pool (RoIPool);
- roi_align (RoIAlign);
- nms (метод пост-обработки изображения, когда оптимизируются границы объектов на изображении так, чтобы на каждый объект имел свои границы);
- box_iou (для расчета IoU метрики по границам объектов на изображениях — bounding boxes);
- box_area (так же, как и предыдущий оператор, помогает в выборе оптимальных границ объектов на изображении)
В библиотеку были добавлены следующие модели.
Сегментация объектов
Теперь доступны модели для попиксельного предсказания изображений. Были добавлены такие модели для сегментации, как FCN и DeepLabV3. Предобученные на датасете COCO веса для ResNet101 доступны публично.
Распознавание объектов
Были добавлены более быстрые версии моделей для распознавания объектов и опорных точек позы человека: Faster R-CNN, Mask R-CNN, Keypoint R-CNN.
Классификация изображений
Библиотеку пополнили следующие модели для задачи классификации изображений:
- GoogLeNet (Inception v1);
- MobileNet V2;
- ShuffleNet v2;
- ResNeXt-50 32x4d and ResNeXt-101 32x8d
Новые датасеты с изображениями
Помимо расширения списка моделей, в библиотеку были добавлены новые датасеты:
- Caltech101, Caltech256, и CelebA;
- ImageNet;
- Semantic Boundaries Dataset;
- VisionDataset как базовый класс для всех датасетов
Полный список обновлений доступен по ссылке. В открытом доступе есть тьюториалы для работы с библиотекой.