Visual Genome: датасет размеченных изображений

Visual Genome — датасет с более чем 100 000 изображений и описаний всех объектов на них. Датасет нацелен на использование в задачах поиска и распознавания объектов.

Visual Genome является самым крупным датасетом с описаниями изображений, объектов, атрибутов и отношений. Датасет собран исследователями Стенфордского университета с помощью краудсорсинга.

Аннотации Visual Genome представляют собой набор прямоугольников, ограничивающих объекты, и названий данных объектов. На каждом изображении в среднем помечено 35 объектов. Всего датасет содержит 5.4 млн описаний объектов, 1.7 млн пар «вопрос-ответ», 2.8 млн атрибутов и 2.3 млн отношений. Пример изображения из датасета и его меток:

Создатели Visual Genome ставили своей задачей объединить структурированные визуальные концепции с языком. Поэтому все метки датасета преобразованы в синсеты из WordNet.

Датасет доступен по ссылке.