fbpx
  • Ego4D: датасет FAIR для обучения моделей восприятию от первого лица

    FAIR представила Ego4D — датасет с видео, снятыми от первого лица. Датасет нацелен на обучение систем компьютерного зрения воспринимать действия аналогично тому, как это делает человек.

     

    Современные системы компьютерного зрения, как правило, обучаются на изображениях и видео, снятых в ракурсе от третьего лица, где камера выступает в качестве наблюдателя. Ego4D направлен на решение задач в области восприятия от первого лица. Над сбором датасета работали ученые из 13 университетов в девяти странах, которые записали более 2200 часов видео от первого лица.

     

    Более 700 участников в каждом из университетов-партнеров раздали камеры, которые крепились на голове и записывали видео с повседневными сценариями, такими как покупка продуктов, приготовление пищи и общение с друзьями. На этих видео отражено, на что человек предпочитает смотреть в определенной обстановке, что он делает своими руками с предметами перед собой и как он взаимодействует с другими людьми. По своему объему Ego4D в 20 раз превышает любой другой датасет в области восприятия от первого лица в пересчете на часы отснятого материала.

     

    Видеозаписи были подвергнуты масштабному аннотированию. В частности, для них были подготовлены плотные текстовые описания, описывающие действия пользователя камеры, пространственные и временные метки объектов и действий, а также транскрипции диалогов. Помимо данных, в FAIR разработали набор бенчмарков, позволяющих изучить наличие эпизодической памяти, способности к распознаванию и прогнозированию действий, а также анализу речи и социальных взаимодействий у моделей, обученных с использованием Ego4D.

     

    Доступ к датасету будет открыт для всех желающих в ноябре 2021-го года при условии подписания соглашения об использовании данных.
    Подписаться
    Уведомить о
    guest
    0 Comments
    Межтекстовые Отзывы
    Посмотреть все комментарии