DAF:re — это публичный датасет для распознавания аниме персонажей. Датасет состоит из 500 тысяч изображений с 3000 классов объектов. Данные по классам распределены неравномерно. Кроме того, исследователи протестировали ResNet и Visual Transformer модели на датасете. Код проекта доступен в открытом репозитории на GitHub.
Подробнее про датасет
DAF:re базируется на датасете DanbooruAnimeFaces (DAF), который является сабсетом датасета Danbooru2018. Danbooru2018 — это наиболее крупный размеченный датасет с аниме иллюстрациями. Данные извлекали из сервиса Danbooru. Danbooru — это хостинг для аниме иллюстраций с тэгами, которые проставляют пользователи.
В первой версии в Danbooru было 2.94 миллионов изображений с 77.5 миллионами тэгов. Затем датасет расширили до 3.33 миллионов изображений и 92.7 тэгов. Полная версия состоит из 3.69 миллионов изображений и 108 миллионов тэгов. Затем корпус отфильтровывали для задачи распознавания аниме персонажей. В отфильтрованном датасете содержатся 561 тысяча изображений, охватывающих 34 тысячи классов. DAF:re — это иначе отфильтрованный датасет Danbooru. Детали о процессе фильтрации доступны в оригинальной статье.