WiderPerson: датасет для распознавания пешеходов

WiderPerson — это датасет для распознавания пешеходов на изображениях. Данные состоят из 13,382 изображений и 399,786 разметок. Разметка делится на пять категорий: пешеходы, водители, частично видимые люди, толпа и игнорируемые объекты. В среднем на изображение приходится 29.87 разметок. WiderPerson содержит более разнообразные изображения, чем стандартные датасеты для распознавания пешеходов: Caltech-USA, Kitti, CityPerson. В качестве базовых моделей для решения задачи исследователи используют модифицированную Faster R-CNN модель и стандартную имплементацию RetinaNet. Доступ к данным открыт по ссылке.

Текущими стандартными наборами данных для распознавания пешеходов являются Caltech-USA, Kitti и CityPerson. Их недостатки заключаются в однотипности ракурсов и самих изображений и в малой представленности сложных снимков с перекрытыми и частично видимыми объектами. Эти недостатки связаны с характером сбора данных: изображения для большинства датасетов собирались с помощью транспортного средства на дороге. В WiderPerson, из-за того, что расположение людей на снимках было плотным, задача распознавания объектов усложняется.

Сравнение датасетов с изображениями пешеходов

Как датасет собирался

Чтобы обеспечить разнообразие изображений, исследователи собирали снимки с поисковых платформ Google, Bing и Baidu. Это способствовало тому, что отобранные изображения снимались в разных городах, на разных мероприятиях и в разных ракурсах. Исследователи придумали более 50 ключевых слов для поисковых запросов, включая ‘pedestrian’, ‘cyclist’, ‘walking’, ‘running’, ‘marathon’, ‘square dance’ и ‘group photo’. Чтобы предотвратить возможность повторов в данных, был использован pHash механизм.

Как размечали

Разметка делится на пять категорий: пешеходы, водители, частично видимые люди, толпа и игнорируемые объекты. Процесс разметки состоял из двух шагов:

Разметчиков попросили тщательно искать на изображении людей и разметить из границы. Для пешеходов и водителей бокс объекта генерируется через прорисовку линии над головой человека и до его ступней. Бокс объекта соотносится с центром прорисованной линии. Частично видимые люди и толпа на изображении размечаются отдельно;
После первого шага следует проверка качества разметки с помощью трех-фолдовой кросс-валидации