fbpx
  • AViD: датасет для распознавания действий на видео

    AViD — это публичный датасет с анонимизированными видеозаписями из разных стран. Датасет предназначен для задачи распознавания действий. AViD состоит из видео, где человек выполняет одно действие. Разнообразие в датасете обеспечивается тем, что видео собирали из разных стран. Основной целью AViD является предоставить возможность обучать универсальные модели распознавания действий, а не специфичные для отдельных стран. Все лица в видеозаписях были анонимизированы для защиты приватности. Данные находятся под лицензией Creative Commons.

    Проблема прошлых датасетов

    Основным ограничением прошлых датасетов для распознавания действий на видео является то, что в данных есть перекос в сторону видео из отдельных стран. Это снижает обобщающую способность моделей и ограничивает использование таких моделей в реальных продуктах. Обученные на AViD модели лишены этого ограничения.

    Пример приветствия в четырех разных странах

    Подробнее о датасете

    Процесс сбора данных состоял из трех шагов:

    1. Сначала был сформирован список классов действий;
    2. Затем видео, которые принадлежали к отобранным классам, семплировали из нескольких источников: Flickr, Instagram, YouTube и других. Это обеспечивает разнообразие видеозаписей. Все лица на видео были распознаны и заблюррены;
    3. После этого исследователи сгенерировали клипы-кандидаты из каждого видео;
    4. Эти клипы затем разметили вручную

    Всего датасет состоит из видео, которые иллюстрируют 887 действий.

    Сравнение популярных датасетов для распознавания действий на видео

    Ниже можно увидеть, что обучение на AViD дает прирост в точности за счет более разнообразных данных.

    Сравнение точности ResNet, обученной на разных датасетах