fbpx
  • Новые датасеты для задачи распознавания действий на видео

    action recognition datasets

    Распознавание действий крайне важно для задач видеонаблюдения, здравоохранения и взаимодействия человека с компьютером. Но как классифицировать видео по действиям, выполняемым на них?

    Классифицировать видео, на которых выполняется только одно действие, не так сложно. Задача схожа с проблемой классификации изображений. Но в данном случае она распространяется на несколько сцен с последующим анализом каждой из них. Известно, что после появления датасета ImageNet, алгоритмы глубокого обучения стали лучше справляться с классификацией изображений. Но наблюдается ли такой же прогресс в классификации видео или в задачах распознавания действий?

    Ряд проблем делают распознавание действий гораздо более сложной задачей, среди которых — необходимость аренды огромных вычислительных мощностей для анализа видео и, конечно же, потребность в датасетах.

    Хороший датасет для задачи распознавания действий должен состоять из большого количества данных и содержать разнообразные типы действий, которые позволят обучить разработанную архитектуру для распознавания разного вида действий.

    К счастью, в 2017-2018 годах было представлено несколько таких датасетов. Вот некоторые из них.

    Датасет KINETICS-600

    • Количество видео: 500 000
    • Количество типов движений: 600
    • Год: 2018

    Kinetics_dataset

    Начнем с датасета, представленного командой Google DeepMind. Это датасет Kinetics — крупномасштабный высококачественный датасет ссылок на видео из YouTube, разработанный для улучшения распознавания действий человека. Его последняя версия называется Kinetics-600 и включает около 500 000 видео, которые охватывают 600 типов действий и как минимум 600 видео с каждым из них.

    Каждый ролик в Kinetics-600 берется из одного видео на YouTube, длится около 10 секунд, помечен одним типом и прошел несколько этапов ручного аннотирования. Для маркировки было создано одностраничное веб-приложение, интерфейс которого можно видеть ниже.

    Интерфейс маркировки Kinetics dataset
    Интерфейс маркировки

    Если сотрудник ответил «да» на вопрос «видите ли вы человека, выполняющего действие class-name?», ему задается следующий вопрос «продолжается ли это действие в течение всего видео?» для последующего использования этой метки при обучении модели.

    Создатели Kinetics-600 также проверили, сбалансирован ли их датасет, и обнаружили, что примерно 15% типов действий несбалансированы, но это не приводит к необъективности модели.

    Действия в данном датасете охватывают широкий спектр типов, включая взаимодействие человека и объекта: игра на музыкальных инструментах, рассадка цветов, стрижка газона, приготовление яиц и многие другие.

    Датасет Moments In Time

    • Количество видео: 1 000 000
    • Количество типов движений: 339
    • Год: 2018
    Примеры из датасета Moments in Time
    Примеры из датасета Moments in Time

    Moments in Time — еще один большой датасет для распознавания действий, разработанный в лаборатории MIT-IBM Watson AI. Коллекция из 1 000 000 помеченных 3-секундных видео не ограничивается только действиями человека и включает людей, животных, объекты и природные явления, которые захватывают суть динамической сцены.

    У этого датасета есть существенные внутриклассовые различия внутри групп. Например, видео, помеченные как «открывание», включают в себя людей, открывающих двери, ворота, ящики, шторы и подарки; животных и людей, открывающих глаза и рот, и даже цветки, раскрывающие свои лепестки.

    Тот факт, что все вышеупомянутые сценарии относятся к одной и той же категории «открывание», является естественным, хотя визуально они сильно отличаются друг от друга. Таким образом, как отмечают исследователи, задача заключается в разработке алгоритмов глубокого обучения, которые также могут различать различные действия, но при этом обобщать их на различные случаи в рамках одного и того же действия.

    Типы действий в наборе данных Moments in Time выбраны так, что они включают наиболее часто используемые глаголы на английском языке, охватывающие широкое и разнообразное семантическое пространство. Таким образом, в наборе данных имеется 339 различных классов действий с 1 757 помеченными видеороликами в каждом классе; каждое видео помечено только одним типом действия.

    Процесс маркировки
    Процесс маркировки

    Как видно на изображении, процесс маркировки очень прост: участникам предлагались видео вместе с глаголом действия. Если пара совпадает, нужно ответить «да», в противном случае — «нет». Для учебного набора исследователи пропускали каждый видеоролик через процедуру маркировки не менее 3 раз, граница доверительного интервала была выбрана равной 75%. Для проверочных и тестовых наборов минимальное число этапов маркировки было равно 4 с границей доверительного интервала 85%.

    Датасет SLAC

    • Количество видео: 520 000 -> 1.75 млн двухсекундных видео
    • Количество типов движений: 200
    • Год: 2017
    Процедура маркировки - датасет SLAC
    Процедура маркировки

    Группа исследователей из Массачусетского технологического института (MIT) и Facebook представила датасет Sparcely Labeled ACtions Dataset. Он, как и Kinetics, состоит из различных типов действий человека и включает более 520 тыс. необработанных видеороликов с YouTube со средней длительностью 2,6 минуты. 2-секундные ролики были получены из видео с помощью нового активного подхода к формированию выборки. В результате получилось 1.75 млн роликов, включая 755 тыс. положительных примеров и 993 тыс. отрицательных примеров, помеченных профессиональной командой из 70 человек.

    Как можно видеть, отличительной особенностью этого датасета является наличие негативных данных. Примеры негативных данных приведены ниже.

    Негативные данные из датасета SLAC
    Негативные данные из датасета SLAC

    Датасет включает 200 типов действий, взятых из другого датасета ActivityNet.

    Обратите внимание: несмотря на то, что статья, в которой представлен этот датасет, был выпущен в декабре 2017 года, он по-прежнему недоступен для скачивания. Надеюсь, ситуация скоро изменится.

    Датасет VLOG

    • Количество видео: 114 000
    • Год: 2017
    Примеры из датасета VLOG
    Примеры из датасета VLOG

    Датасет VLOG отличается от предыдущих тем, как он был собран. Традиционный подход к получению данных начинается с подготовки списка классов, а затем происходит поиск соответствующих им данных.

    Однако такой подход сталкивается с проблемами, поскольку действия вряд ли будут помечены в Интернете. Можете ли вы представить себя загружающим и помечающим видео о том, как вы включаете микроволновую печь, открываете холодильник или встаете с постели? Обычно помечаются необычные вещи, например, например, прыжки в бассейне или игра на арфе. В результате имеющиеся датасеты часто несбалансированы: в них доминируют более редкие типы действий по сравнению с рутинными.

    Для решения этой проблемы исследователи из Калифорнийского университета предлагают начать с того, что нам действительно нужно, а именно с получения видео с повседневными действиями, и уже после этого помечать их. Сбор начинается со влогов — крайне популярного жанра видео, в которых люди документируют свою жизнь.

    Схема автоматического сбора данных из датасета
    Схема автоматического сбора данных

    Поскольку данные собираются автоматически, их маркировка представляет определенную трудность. Исследователи решили сосредоточиться на важном типе действий: жестикуляции. Предполагается, что этот датасет позволит лучше обучить модели распознавать движения рук.

    Заключение

    Проблема распознавания действий требует огромных вычислительных затрат и большого количества данных. К счастью, в течение прошлого года появилось несколько очень хороших датасетов. Наряду с представленными ранее образцовыми датасетами (ActivityNet, UCF101, HMDB) они формируют отличную основу для значительного улучшения эффективности систем распознавания движений.


    Интересные статьи: