ClassyVision: фреймворк для классификации изображений и видеозаписей

ClassyVision — это фреймворк на PyTorch для широкомасштабного обучения state-of-the-art моделей для классификации изображений и видеозаписей. Разработкой фреймворка занимались исследователи из FAIR. Фреймворк публично доступен в репозитории на GitHub.

Особенности ClassyVision

Среди преимуществ использования фреймворка исследователи выделяют: простоту в использовании и скорость работы.

Простота использования

Библиотека имеет модульную структуру, которая позволяет обучать модели поверх PyTorch с помощью простых абстракций. Система интегрирована с Amazon Web Services (AWS). Это упрощает переход от прототипирования моделей к внедрению их в продукт.

Скорость работы

Библиотека позволяет обучать Resnet50 на ImageNet за 15 минут.

Функционал библиотеки

Предыдущие библиотеки для компьютерного зрения фокусировались на предоставлении компонентов для создания собственных исследовательских фреймворков. Несмотря на гибкость в построении пайплайнов для исследования, при инференсе моделей исследователям необходимо знать детали распределенного обучения и загрузки данных. ClassyVision позволяет этого избежать.

Абстракции в библиотеки дает возможность пользователю конвертировать прототип модели в формат для инференса с использованием сотен GPU и миллиардов изображений. ClassyVision интегрирован с Torch.Hub. Это упрощает загрузку и дообучение последних state-of-the-art архитектур с помощью пары строк кода. Библиотека также интегрируется с PyTorch Elastic. PyTorch Elastic делает распределенное обучение моделей более стабильным к проблемам.

В Facebook фреймворк используется для обучения state-of-the-art моделей на крупных датасетах.