SpeedNet — это сверточная нейросеть, которая предсказывает ускорение или замедление объекта на видеозаписи. Модель обучали на корпусе реальных видеозаписей без ручной разметки. В основе SpeedNet лежит архитектура S3D-G модели.
Задача предсказания скорости движущихся объектов на видео предполагает, что модель способна распознать, когда скорость объекта отличается от естественной. SpeedNet предсказывает вероятность того, что объекты на видеозаписи ускорились. Нейросеть решает задачу бинарной классификации в self-supervised формате обучения. Через задачу предсказания скорости видео модель выучивается кодировать пространственно-временные характеристики. С помощью таких представлений модель хорошо масштабируется на задачу предсказания действия на видеозаписи.
Архитектура модели
SpeedNet обучается self-supervised. Модель основывается на 3D сверточной нейросети S3D-G. S3D-G — это state-of-the-art модель для распознавания действий. SpeedNet обучали и тестировали на датасете Kinetics. Kinetics состоит из 246 тысяч видео в тренировочной выборке и 50 тысяч видео в тестовой выборке.
Тестирование работы модели
Исследователи сравнили SpeedNet с другими self-supervised методами на датасетах UCF101 и HMDB51 split-1. Ниже видно, что SpeedNet с базовой моделью S3D-G обходит state-of-the-art методы.