• Visual Genome: датасет размеченных изображений

    Visual Genome — датасет с более чем 100 000 изображений и описаний всех объектов на них. Датасет нацелен на использование в задачах поиска и распознавания объектов.

    Visual Genome является самым крупным датасетом с описаниями изображений, объектов, атрибутов и отношений. Датасет собран исследователями Стенфордского университета с помощью краудсорсинга.

    Аннотации Visual Genome представляют собой набор прямоугольников, ограничивающих объекты, и названий данных объектов. На каждом изображении в среднем помечено 35 объектов. Всего датасет содержит 5.4 млн описаний объектов, 1.7 млн пар «вопрос-ответ», 2.8 млн атрибутов и 2.3 млн отношений. Пример изображения из датасета и его меток:

     

    Создатели Visual Genome ставили своей задачей объединить структурированные визуальные концепции с языком. Поэтому все метки датасета преобразованы в синсеты из WordNet.

    Датасет доступен по ссылке.




    Подписаться
    Уведомить о
    guest

    0 Comments
    Межтекстовые Отзывы
    Посмотреть все комментарии