fbpx
  • Нейросеть распознает действия на видео в реальном времени

    Исследователи из Amazon опубликовали нейросетевую модель, которая распознает действия на видеозаписях трансляций в реальном времени. Нейросеть учитывает временные лаги трансляций при выдаче предсказаний. Фреймворк состоит из двух частей: модуль с моделью I3D и оконная задержка. По результатам экспериментов, нейросеть обходит state-of-the-art решения для онлайн распознавания действий на видео.

    В чем проблема

    Исследователи формулируют проблему временного распознавания действия в онлайне на видеозаписях трансляций. Стандартная задача предсказания действия онлайн предполагает мгновенную выдачу предсказания моделью. Это накладывает излишние ограничения на формат обучения моделей. Исследователи предлагают использовать временной лаг между съемкой события и трансляцией его зрителям (buffer time) как дополнительное время для модели.

    Подробнее про фреймворк

    BF-I3D фреймворк состоит из двух модулей:

    • Flattened I3D Module, который принимает на вход прошлые кадры и выдает предсказание для текущего кадра;
    • WBS Module, который агрегирует предсказания для окон заданного размера и обновляет индикаторы начала и конца действия

    Итоговое предсказание выдается, как только кадр выходит за пределы заданного окна.

    Визуализация составных частей BF-I3D

    Тестирование работы модели

    Исследователи сравнили работу модели с state-of-the-art архитектурами для онлайн распознавания действий на видео. Ниже видно, что BF-I3D выдает лучшие результаты из существующих подходов.

    Сравнение моделей на датасете THUMOS14