Gate-Shift Module: нейросетевая архитектура для распознавания действий на видео

Глубокие 3D сверточные сети используются для распознавания действий на видеозаписях. Модель выучивает представления в объединенном пространстве, в котором кодируется информация о временных и пространственных признаках. Исследователи вводят идею spatial gating в пространственно-временной декомпозиции 3D кернелов. Gate-Shift Module (GSM) — это специальный легковесный модуль, который добавляется к 2D-CNN и улучшает качество выученных представлений. По результатам экспериментов, нейросеть с GSM модулями достигает state-of-the-art результатов на датасетах Something Something-V1 и Diving48. На Something Something-V1 модель улучшает предыдущие результаты на +32% в точности распознавания. При этом количество параметров сети и количество операций увеличиваются на 1%.

При помощи GSM 2D-CNN выучивается адаптивно распределять признаки через время и объединять их. Добавление модуля незначительно влияет на количество параметров модели и ее вычислительную сложность.

Сравнение существующих подходов к факторизации 3D ядер для обучения представлений кадров видеозаписей. GSM — предложенный подход

Что внутри модели

GSM вдохновлена предыдущими подходами к декомпозиции 3D кернелов: GST и TSM. Отличием GSM является добавленный обучаемый блок с spatial gating. Gate — это одно ядро 3D свертки с функцией тангенса поверх. Такая структура делает GSM легковесной и не требует значительного увеличения параметров модели.

Подходы к C3D декомпозиции в сравнении с GSM

В итоговой нейросети в качестве базовых моделей используются BN-Inception и InceptionV3. GSM модуль добавляется внутрь каждого Inception блока. Всего добавляется 10 GSM модулей. 

Оценка работы нейросети

Исследователи тестируют Gate-Shift Module (GSM) на трех стандартных датасетах для распознавания действий на видеозаписи:

  • Something SomethingV1 (Something-V1);
  • Diving48;
  • EPICKitchens

Ниже видно сравнение результатов нейросети с GSM против state-of-the-art подходов.

Результаты моделей на Something-V1
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt