Методы компьютерного зрения позволяют распознавать лица на видеозаписях, классифицировать и улучшать качество видео, а также автоматически создавать аннотации к ним. В статье приводится обзор основных облачных платформ для обработки видео при помощи нейросетей.
1. Amazon AWS
Основной сервис AWS для работы с видео — Amazon Reсognition. Инструмент обладает следующими функциями:
- идентификация объектов, людей, текста и сцен на изображениях и видео;
- обнаружение нежелательного контента;
- распознавание лиц, полезное для идентификации пользователей, демографического анализа и контроля безопасности;
- Amazon Kinesis Video Streams.
Kinesis Video Streams позволяет безопасно передавать видео с устройств в AWS для аналитики, анализа на основе машинного обучения и воспроизведения. Эта функция позволяет развернуть инфраструктуру, необходимую для захвата потоковых видеоданных с миллионов устройств. Инструмент хранит, шифрует и индексирует видеоданные для доступа через простой в использовании API. Kinesis обеспечивают потоковую передачу видео в реальном времени и по запросу, а также позволяет выполнять анализ видео с помощью технологий Amazon и open-source платформ, таких как Apache MXNet, TensorFlow и OpenCV.
2. Microsoft Azure
Microsoft Cognitive Services включает пакет Vision, обладающий следующими инструментами:
- Computer Vision — распознавание объектов, печатных и рукописных текстов, действий (например, ходьбы) и доминирующих цветов в кадре;
- Content Moderator — обнаружение нежелательного контента в текстах, видео и изображениях;
- Face API — распознавание и классификация лиц, включая распознавание возраста, пола, эмоций, позы и волосы на лиц;
- Emotion API — распознавание и описание выражений лиц;
- Custom Vision Service — создание новых моделей распознавания изображений с использованием собственных данных;
- Video indexer — поиск людей в видео, анализ тональности речи и выделение в ней ключевых слов.
3. Google Cloud Platform
- Video Intelligence API — модель машинного обучения, которая может автоматически идентифицировать большое количество объектов, сцен и действий в сохраненных и потоковых видео. Обладает высокой производительностью, постоянно улучшается и переобучается;
- AutoML Video Intelligence — графический интерфейс, позволяющий пользователям с минимальным опытом машинного обучения развертывать модели, выполняющие классификацию и распознавание объектов в видео. Подходит для проектов, требующих не охваченных Video Intelligence API аннотаций.
4. Pixop
Веб-сервис Pixop позволяет хранить и обрабатывать видеофайлы в облаке. Основные функции:
- Pixop Deep Restoration — улучшение качества видео путем удаления размытия, устранения артефактов сжатия и увеличения резкости;
- Pixop Super Resolution — увеличение разрешения видео;
- Pixop Denoiser — уменьшение шумов видео.
5. Valossa
- Auto Preview — автоматическое создание превью видео;
- Video recognition API — распознавание сцен и действий в видео;
- Face analysis toolkit — распознавание лиц в режиме реального времени, включая анализ поведенческих и демографических характеристик.