YouTube-8M — это датасет с видеозаписями из YouTube, который собрали в Google. В обновленной версии датасета для части видеозаписей разметили содержание видео в динамике. Компания запустила соревнование по анализу видеоданных на Kaggle.
За последние два года Google провели два воркшопа по анализу видеоданных (первый и второй). Оба воркшопа в качестве данных использовали предыдущую версию датасета. Несмотря на то, что данные спровоцировали исследования в области анализа видеозаписей, у датасета был ряд ограничений. Среди ограничений — автоматически размеченные лейблы для видео и отсутствие разметки по времени. Это ограничивало возможность моделей предсказывать содержание видео.
Чтобы поддержать интерес к исследованию временной разметки контента видео, исследователи опубликовали расширение стандартного YouTube-8M датасет — YouTube-8M Segments. В расширении содержится проверенная людьми разметка контента для каждых пяти секунд видео. С дополнительной временной разметкой датасет теперь представляет собой масштабный ресурс данных для задачи классификации видео и частей видео.
Кроме соревнования на Kaggle, Google организовывают 3-й воркшоп по анализу видеоданных на конференции по компьютерному зрению (ICCV’19).
YouTube-8M Segments
Разметка сегментов видео позволяет анализировать содержание видео более точно, что невозможно с лейблами для целых видеозаписей. Одно из применений — отображение определенных сегментов видео. Исследователи не размечали все сегменты в одном видео. Они рандомно аннотировали 5 сегментов в случайно выбранных видео. Всего получилось ~237 тыс. разметок и 1000 уникальных категорий.
Соревнование на Kaggle
В этом году соревнование фокусируется на временной разметке видеозаписей. Участники должны использовать данные разметки видео и сегментов. Цель — разметить тестовые видео и локализовать разметку для сегментов из тестовых видео. Подробности конкурса опубликованы на страницы соревнования на Kaggle.