Нейросеть распознает действия на видео в реальном времени

Исследователи из Amazon опубликовали нейросетевую модель, которая распознает действия на видеозаписях трансляций в реальном времени. Нейросеть учитывает временные лаги трансляций при выдаче предсказаний. Фреймворк состоит из двух частей: модуль с моделью I3D и оконная задержка. По результатам экспериментов, нейросеть обходит state-of-the-art решения для онлайн распознавания действий на видео.

В чем проблема

Исследователи формулируют проблему временного распознавания действия в онлайне на видеозаписях трансляций. Стандартная задача предсказания действия онлайн предполагает мгновенную выдачу предсказания моделью. Это накладывает излишние ограничения на формат обучения моделей. Исследователи предлагают использовать временной лаг между съемкой события и трансляцией его зрителям (buffer time) как дополнительное время для модели.

Подробнее про фреймворк

BF-I3D фреймворк состоит из двух модулей:

  • Flattened I3D Module, который принимает на вход прошлые кадры и выдает предсказание для текущего кадра;
  • WBS Module, который агрегирует предсказания для окон заданного размера и обновляет индикаторы начала и конца действия

Итоговое предсказание выдается, как только кадр выходит за пределы заданного окна.

Визуализация составных частей BF-I3D

Тестирование работы модели

Исследователи сравнили работу модели с state-of-the-art архитектурами для онлайн распознавания действий на видео. Ниже видно, что BF-I3D выдает лучшие результаты из существующих подходов.

Сравнение моделей на датасете THUMOS14
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt