Исследователи из Amazon опубликовали нейросетевую модель, которая распознает действия на видеозаписях трансляций в реальном времени. Нейросеть учитывает временные лаги трансляций при выдаче предсказаний. Фреймворк состоит из двух частей: модуль с моделью I3D и оконная задержка. По результатам экспериментов, нейросеть обходит state-of-the-art решения для онлайн распознавания действий на видео.
В чем проблема
Исследователи формулируют проблему временного распознавания действия в онлайне на видеозаписях трансляций. Стандартная задача предсказания действия онлайн предполагает мгновенную выдачу предсказания моделью. Это накладывает излишние ограничения на формат обучения моделей. Исследователи предлагают использовать временной лаг между съемкой события и трансляцией его зрителям (buffer time) как дополнительное время для модели.
Подробнее про фреймворк
BF-I3D фреймворк состоит из двух модулей:
- Flattened I3D Module, который принимает на вход прошлые кадры и выдает предсказание для текущего кадра;
- WBS Module, который агрегирует предсказания для окон заданного размера и обновляет индикаторы начала и конца действия
Итоговое предсказание выдается, как только кадр выходит за пределы заданного окна.
Тестирование работы модели
Исследователи сравнили работу модели с state-of-the-art архитектурами для онлайн распознавания действий на видео. Ниже видно, что BF-I3D выдает лучшие результаты из существующих подходов.