FAIR обучили новый state-of-the-art в обработке видеозаписей

FAIR опубликовали нейросетевой фреймоворк для распознавания содержимого видеозаписи. Generalized Data Transformations обучается без размеченных данных. Предложенный подход обходит state-of-the-art на датасетах HMDB-51 и UCF-101 в задачах видео и аудио классификации и извлечения.

Подробнее про фреймворк

Generalized Data Transformations извлекает информацию о взаимосвязи визуального и аудио компонентов видеозаписи. Это позволяет обойти прошлые state-of-the-art подходы при дообучении модели на downstream задачах. Generalized Data Transformations — это новый state-of-the-art в задачах распознавания действий на видео, извлечении, few-shot обучении и классификации аудио.

Предложенная архитектура состоит из трех концептуальных частей:

Иерархический сэмплинг генерализованных трансформаций (generalized transformations);
С помощью генерализованных трансформаций данных (GDT) сеть выучивает эмбеддинг, в котором содержится информация о модальностях и временной контекст. Эмбеддинг выучивается через поиск шума в клипах из других входных видеозаписей;
Сабсет из матрицы контрастов, который показывает, какие пары мультимодальных данных друг с другом соотносятся, а какие — нет

Обзор составных частей фреймворка: иерархические трансформации, обучающие гипотезы и кросс-модальное обучение

Исследователи проверяли модель на датасетах HMDB-51, UCF-101, DCASE2014, ESC-50 и VGG-Sound. На датасетах HMDB и UCF нейросеть обходит прошлые подходы с точностью 72.8% и 95.2% соответственно.