Глубокие 3D сверточные сети используются для распознавания действий на видеозаписях. Модель выучивает представления в объединенном пространстве, в котором кодируется информация о временных и пространственных признаках. Исследователи вводят идею spatial gating в пространственно-временной декомпозиции 3D кернелов. Gate-Shift Module (GSM) — это специальный легковесный модуль, который добавляется к 2D-CNN и улучшает качество выученных представлений. По результатам экспериментов, нейросеть с GSM модулями достигает state-of-the-art результатов на датасетах Something Something-V1 и Diving48. На Something Something-V1 модель улучшает предыдущие результаты на +32% в точности распознавания. При этом количество параметров сети и количество операций увеличиваются на 1%.
При помощи GSM 2D-CNN выучивается адаптивно распределять признаки через время и объединять их. Добавление модуля незначительно влияет на количество параметров модели и ее вычислительную сложность.
Что внутри модели
GSM вдохновлена предыдущими подходами к декомпозиции 3D кернелов: GST и TSM. Отличием GSM является добавленный обучаемый блок с spatial gating. Gate — это одно ядро 3D свертки с функцией тангенса поверх. Такая структура делает GSM легковесной и не требует значительного увеличения параметров модели.
В итоговой нейросети в качестве базовых моделей используются BN-Inception и InceptionV3. GSM модуль добавляется внутрь каждого Inception блока. Всего добавляется 10 GSM модулей.
Оценка работы нейросети
Исследователи тестируют Gate-Shift Module (GSM) на трех стандартных датасетах для распознавания действий на видеозаписи:
- Something SomethingV1 (Something-V1);
- Diving48;
- EPICKitchens
Ниже видно сравнение результатов нейросети с GSM против state-of-the-art подходов.