fbpx
  • FAIR обучили новый state-of-the-art в обработке видеозаписей

    FAIR опубликовали нейросетевой фреймоворк для распознавания содержимого видеозаписи. Generalized Data Transformations обучается без размеченных данных. Предложенный подход обходит state-of-the-art на датасетах HMDB-51 и UCF-101 в задачах видео и аудио классификации и извлечения.

    Подробнее про фреймворк

    Generalized Data Transformations извлекает информацию о взаимосвязи визуального и аудио компонентов видеозаписи. Это позволяет обойти прошлые state-of-the-art подходы при дообучении модели на downstream задачах. Generalized Data Transformations — это новый state-of-the-art в задачах распознавания действий на видео, извлечении, few-shot обучении и классификации аудио.

    Предложенная архитектура состоит из трех концептуальных частей:

    1. Иерархический сэмплинг генерализованных трансформаций (generalized transformations);
    2. С помощью генерализованных трансформаций данных (GDT) сеть выучивает эмбеддинг, в котором содержится информация о модальностях и временной контекст. Эмбеддинг выучивается через поиск шума в клипах из других входных видеозаписей;
    3. Сабсет из матрицы контрастов, который показывает, какие пары мультимодальных данных друг с другом соотносятся, а какие — нет
    Обзор составных частей фреймворка: иерархические трансформации, обучающие гипотезы и кросс-модальное обучение

    Исследователи проверяли модель на датасетах HMDB-51, UCF-101, DCASE2014, ESC-50 и VGG-Sound. На датасетах HMDB и UCF нейросеть обходит прошлые подходы с точностью 72.8% и 95.2% соответственно.