fbpx
  • SlowFast: архитектура для распознавания действий на видео

    SlowFast — это нейросетевая архитектура, которая адаптирована для классификации действий на видео. Модель одновременно обрабатывает видео на высокой и низкой кадровой частоте. Нейросеть использует два канала обработки данных: первый фокусируется на обработке пространственной семантики, а второй — на быстро сменяющихся движениях. Первый канал собирает данные о цветах, текстурах и объектах. Эти данные могут быть получены при низкой кадровой частоте. Второй канал необходим для получения данных о действиях. Действия на видеозаписи проще распознать при высокой кадровой частоте. Такая архитектура модели позволяет одновременно кодировать как семантические признаки кадров, так и действия в кадре.

    Частично подход основывается на двухканальной природе зрения приматов. SlowFast легковеснее предыдущих системя для распознавания видео. По результатам экспериментов, модель обошла state-of-the-art подходы на стандартных датасетах.

    Как модель работает

    Нейросеть анализирует сырую видеозапись дважды на разных скоростях. В первый раз обработку проходят видеозаписи с частотой два кадра в секунду. Изначально видеозаписи имеют кадровую частоту 30 кадров в секунду. Во второй раз модель обрабатывает видео с кадровой частотой 16 кадров в секунду. Такие убыстренные видеозаписи позволяют модели лучше распознать типы движений на кадрах.
    Основным преимуществом такого подхода является эффективность за счет снижения кадровой частоты для второго канала модели. Это позволяет снизить вычислительную сложность алгоритма так, чтобы точность модели не пострадала.

    Оценка работы SlowFast

    Нейросеть тестируется на задаче классификации действий на датасетах Kinetics-400, Kinetics-600 и Charades. Дополнительно исследователи проверяют, как модель решает задачу распознавания действий на датасете AVA. Результаты экспериментов показывают, что SlowFast сети стабильно более точные, чем конкурирующих подходы.

    Сравнение моделей на задаче Kinetics-400