Нейросеть распознает действие на видео в реальном времени

YOWO — это сверточная нейросетевая архитектура для распознавания действия на видео в реальном времени. Предыдущие походы использовали для решения этой задачи несколько моделей, предсказания с которых объединялись с помощью еще одной модели. YOWO является единой end-to-end нейросетью. Модель обрабатывает 34 кадра в секунду для видеозаписей с 16 кадрами и 62 кадра в секунду — для видеозаписей с 8 кадрами. YOWO обходит state-of-the-art на 3.3% и 12.2% по frame-mAP метрике.

Локализация действия в пространстве и времени требует внедрения двух источников информации в архитектуру модели:

  1. Временной контекст из предыдущих кадров;
  2. Пространственная информация с текущего кадра

Текущие state-of-the-art подходы обычно получают эту информацию с помощью отдельных нейросетей и затем отдельной моделью объединяют информацию и предсказывают действие на текущем кадре. 

Архитектура нейросети 

YOWO состоит из 4 основных компонентов:

  • 3D-CNN распознает действия. В основе этой модели лежит 3D-ResNext-101 на основе множества предыдущих кадров;
  • 2D-CNN извлекает из текущего кадра информацию о пространстве;
  • CFAM (Channel Fusion and Attention Mechanism) объединяет предсказания с двух предыдущих шагов;
  • Блок для предсказания границ объекта

3D-CNN была предварительно предобучена на Kinetics датасете. А 2D-CNN, в свою очередь, предобучили на PASCAL VOC.

Визуализация составных частей нейросети

Тестирование модели

Исследователи протестировали работу моделей на UCF101-24 и J-HMDB-21 датасетах. Ниже видно, что YOWO обходит state-of-the-art подходы по покадровому mean average precision (mAP).

Сравнение подходов на датасете J-HMDB-21
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt