OOPS: датасет для распознавания непреднамеренных действия на видеозаписи

OOPS — это датасет с видеозаписями действий людей, который предназначен для распознавания непреднамеренных действий. Созданием датасета занимались исследователи из Columbia University. Исследователи обучили базовую модель с учителем и сравнили ее работу с человеческой оценкой.

По краткому взгляду на видео человек часто способен определить, является ли действие человека на видео преднамеренным или нет. Это смотивировало исследователей собрать датасет для тестирования нейросетевых подходов. Исследователи выделяют 3 задачи, которые можно решить с помощью датасета:

  • Классификация преднамеренности действия;
  • Локализация перехода из преднамеренного действия в непреднамеренное;
  • Предсказание начала непреднамеренного действия
Различие между преднамеренным и непреднамеренным действиями

Датасет 

OOPS состоит из 20,338 видеозаписей с YouTube. Видеозаписи собирались из компиляций видео с неудачами людей. Суммарно длительность видеозаписей составляет более 50 часов. Видеозаписи отражают сцены из реального мира, которые были сняты обывателями. Это обеспечивает разнообразие действий, заднего плана и намерений. Датасет содержит множество причин неудач и непреднамеренных действий, включая физические и социальные ошибки, ошибки в планировании и ограниченность навыков агента. Данные включают в себя видеозаписи, оптический поток, оценка поз и разметка.

Ниже видны обобщенные статистики по данным. В большинстве случаев длина видеозаписи не превышает 15 секунд. Медианная и средняя длина клипов — 7.6 и 9.4 секунд. Чаще всего неудача происходит в первой половине видеозаписи (от 20 до 50% от всей длины видеозаписи).

Описательная статистика датасета
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt