OOPS — это датасет с видеозаписями действий людей, который предназначен для распознавания непреднамеренных действий. Созданием датасета занимались исследователи из Columbia University. Исследователи обучили базовую модель с учителем и сравнили ее работу с человеческой оценкой.
По краткому взгляду на видео человек часто способен определить, является ли действие человека на видео преднамеренным или нет. Это смотивировало исследователей собрать датасет для тестирования нейросетевых подходов. Исследователи выделяют 3 задачи, которые можно решить с помощью датасета:
- Классификация преднамеренности действия;
- Локализация перехода из преднамеренного действия в непреднамеренное;
- Предсказание начала непреднамеренного действия
Oh here's a fun one: "Oops! Predicting Unintentional Action in Video"
Great project site, check out the graphs showing ground-truth versus predictions for the videos:
abs: https://t.co/G6WsznpW57
pdf: https://t.co/2rMlKvvLqD
site: https://t.co/ELHdGPWjxl pic.twitter.com/8MIn1mW5bE— Jonathan Fly ? (@jonathanfly) November 27, 2019
Датасет
OOPS состоит из 20,338 видеозаписей с YouTube. Видеозаписи собирались из компиляций видео с неудачами людей. Суммарно длительность видеозаписей составляет более 50 часов. Видеозаписи отражают сцены из реального мира, которые были сняты обывателями. Это обеспечивает разнообразие действий, заднего плана и намерений. Датасет содержит множество причин неудач и непреднамеренных действий, включая физические и социальные ошибки, ошибки в планировании и ограниченность навыков агента. Данные включают в себя видеозаписи, оптический поток, оценка поз и разметка.
Ниже видны обобщенные статистики по данным. В большинстве случаев длина видеозаписи не превышает 15 секунд. Медианная и средняя длина клипов — 7.6 и 9.4 секунд. Чаще всего неудача происходит в первой половине видеозаписи (от 20 до 50% от всей длины видеозаписи).