Компания Tecent выложила в открытый доступ датасет Tencent ML-Images с 11 тысячами классов и 18 миллионами изображений, каждое из которых содержит в среднем 8 меток. На GitHub доступна предобученная модель распознавания изображений ResNet-101, которая достигла впечатляющей точности — 80.73% на тестовом датасете ImageNet.
Зачем нужны multi-labelled датасеты?
В задачах обучения визуальному представлению глубокие сверточные нейронные сети (CNN) часто обучаются на изображениях, которые содержат только одну метку (label), как например в датасете ImageNet. При этом большинство изображений содержит несколько объектов. Например, на одном фото могут быть трава и корова. В одном случае изображение будет помечено только тегом «трава», а в другом только тегом «корова», что затем вызовет ошибки в распознавании. Один тег не может описать все содержимое одного изображения и часть полезной визуальной информации теряется во время обучения. Датасеты с несколькими метками решают эту проблему.
Датасет Tencent ML-Images
ML-Images — крупнейший набор изображений с несколькими метками с открытым исходным кодом. В него входят 18 миллионов изображений и 11 тысяч категорий объектов. До недавнего времени самым большим открытым набором изображений с несколькими метками был Google Open Images, который включает в себя 9 миллионов изображений и более 6 тысяч категорий объектов. Таким образом, Tencent ML-Images может стать новым стандартом для исследователей в области компьютерного зрения.
Датасет объединяет изображения из наборов Open Images и ImageNet. Разработчики построили семантическую иерархию и сопоставили описания обоих датасетов, чтобы получить единые определения для тегов и классов.
Для проверки датасета разработчики обучили модель ResNet-101 V2 и проверили её на тестовых изображениях из набора ImageNet. Результаты показаны на таблице ниже.
Обучение ResNet-101
Обучение ResNet-101 на датасете Tencent ML-Images занимает 90 часов и 60 эпох с использованием распределенного обучения. Сеть обеспечит надежную поддержку визуальных задач при обработке изображений и видео и улучшит точность классификации, обнаружения и распознавания объектов, семантической сегментации.
Больше информации о датасете и обучении ResNet-101 здесь. Ссылка на GitHub в подвале статьи.