fbpx
  • Нейросеть распознает действие на видео в реальном времени

    YOWO — это сверточная нейросетевая архитектура для распознавания действия на видео в реальном времени. Предыдущие походы использовали для решения этой задачи несколько моделей, предсказания с которых объединялись с помощью еще одной модели. YOWO является единой end-to-end нейросетью. Модель обрабатывает 34 кадра в секунду для видеозаписей с 16 кадрами и 62 кадра в секунду — для видеозаписей с 8 кадрами. YOWO обходит state-of-the-art на 3.3% и 12.2% по frame-mAP метрике.

    Локализация действия в пространстве и времени требует внедрения двух источников информации в архитектуру модели:

    1. Временной контекст из предыдущих кадров;
    2. Пространственная информация с текущего кадра

    Текущие state-of-the-art подходы обычно получают эту информацию с помощью отдельных нейросетей и затем отдельной моделью объединяют информацию и предсказывают действие на текущем кадре. 

    Архитектура нейросети 

    YOWO состоит из 4 основных компонентов:

    • 3D-CNN распознает действия. В основе этой модели лежит 3D-ResNext-101 на основе множества предыдущих кадров;
    • 2D-CNN извлекает из текущего кадра информацию о пространстве;
    • CFAM (Channel Fusion and Attention Mechanism) объединяет предсказания с двух предыдущих шагов;
    • Блок для предсказания границ объекта

    3D-CNN была предварительно предобучена на Kinetics датасете. А 2D-CNN, в свою очередь, предобучили на PASCAL VOC.

    Визуализация составных частей нейросети

    Тестирование модели

    Исследователи протестировали работу моделей на UCF101-24 и J-HMDB-21 датасетах. Ниже видно, что YOWO обходит state-of-the-art подходы по покадровому mean average precision (mAP).

    Сравнение подходов на датасете J-HMDB-21