fbpx
  • Hotels-50K: датасет с миллионом фотографий номеров отелей

    Датасет Hotels-50K содержит миллион изображений из 50 000 отелей в разных странах. Датасет c номерами отелей создан с целью сопоставлять фотографии со снимками жертв human traffic (торговли людьми) из незаконной онлайн-рекламы, и помогать полиции определять, в каком отеле находятся похищенные люди. Датасет пригодится и для других задач машинного обучения.

    Торговля людьми

    По данным ООН, 59% общемировой торговли людьми приходится на торговлю с целью сексуальной эксплуатации. Сотни тысяч людей ежегодно перевозятся через границы против своей воли. Большинство из них — молодые женщины, которых принуждают заниматься проституцией.

    Торговцы людьми часто фотографируют своих жертв в гостиничных номерах, чтобы использовать их снимки в рекламе. Разработчики хотят использовать машинное обучение, чтобы помочь полицейским и некоммерческим организациям определить, в каких отелях находятся жертвы, основываясь на фотографиях из рекламы.

    Датасет собрала команда исследователей Adobe, Университета Джорджа Вашингтона и Университета Темпл в США. Поскольку большинство гостиничных номеров выглядят примерно одинаково, необходимы многочисленные фотографии из как можно большего числа разных отелей, чтобы научить нейронную сеть их различать.

    База данных TrafficCam

    Фотографии для обучения взяты с туристических сайтов, таких как Expedia. На них показаны чистые, хорошо освещенные номера.

    Для тестирования фотографии взяты из базы данных TraffickCam. Фото номеров для TraffickCam делают туристы, когда останавливаются в отелях. Онлайн-реклама, с которой нужно сопоставить фото отеля, обычно плохого качества, поэтому любительские зернистые снимки подходят лучше, чем качественные фото с сайтов отелей.

    Из 50 000 классов в датасете 13 900 имеют соответствующие изображения любительских фотографий из TraffickCam.

    Результаты

    Исследователи использовали две предварительно обученные нейронные сети (ResNet-50 и VGG) для проверки набора данных. Нейросети сопоставляли изображения из TraffickCam с идеальными изображениями отелей. Тестовая выборка состояла из 17 954 фотографий. Обе сети смогли правильно идентифицировать гостиничную сеть по фото почти с 80% точностью. Однако модели пока плохо определяют конкретный отель сети — точность составила 24%.

    Ученые надеются, что другие исследователи примут участие в разработке программных продуктов для помощи жертвам секс-траффикинга. Датасет опубликован на GitHub