Модель распознаёт действия на видеозаписи без учителя

Исследователи из DeepMind обучили генеративную модель, которая сегментирует действия на видеозаписи. Модель обучается распознавать действия без реальной разметки действий на видеозаписи. Несмотря на свою простоту, алгоритм выдает сравнимые с state-of-the-art результаты.

Описание задачи

Поиск границ в непрерывном потоке информации — это один из основных процессов в человеческом сознании. Чтобы понять и запомнить, что происходит в окружающем мире, человек должен уметь распознавать границы начала и окончания действий. Кроме того, необходимо отдель значимые действия от незначительных. Задача модели заключается в том, что бы выделить в видеозаписи части, которые ответственны за отдельные действия, и классифицировать эти действия. Такая проблема называется временной сегментацией действий (temporal action segmentation). Прошлые исследования фокусируются на случае, когда модели доступна разметка видеозаписи на действия. Исследователи в DeepMind предлагают архитектуру модели, которая обучается без учителя или с частичным привлечением учителя.

Данные для обучения

Для обучения модели исследователи использовали датасет CrossTask. В датасете каждое видео привязано к определенному действию. Например, сделать кофе. Задачи были взяты из статей WikiHow, а видео — из поискового результата YouTube. Обучающие данные содержат 2,700 видеозаписей с 18 разными действиями. 

Видеозапись с задачей разбита на подзадачи, которые последовательно приводят к решению задачи. Для каждого видео есть разметка, на каком момент начинается и заканчивается подзадача. Модель учится сегментировать видеозапись на участки с подзадачами и классифицировать подзадачи. При этом во время обучения модели недоступна разметка подзадач.

Архитектура подхода

Исследователи используют полумарковскую модель первого порядка (first-order semi-Markov model). Выбор архитектуры обуславливается тем, что полумарковская модель напрямую моделирует временные участки, их длину, вероятностное распределение и признаки. Модель при обучении максимизирует вероятность признаков. Это позволяет обучать алгоритм без размеченных временных участков на видеозаписи.

Характеристики моделей, которые исследователи тестируют

Результаты экспериментов

Исследователи сравнивают предложенную генеративную модель с алгоритмами из Zhukov et al. (2019) и Richard et al. (2018). Кроме того, они использовали статистики по датасету в качестве статических бейзлайнов. По результатам экспериментов, видно, что предложенная модель выдает схожие с state-of-the-art результаты.

Сравнение базовых моделей с предложенным подходом на количественных метриках
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt