Google запустили второе соревнование по компьютерному зрению на Kaggle — Open Images 2019. Соревнование делится на три трека: распознавание объектов, выявление взаимосвязей между объектами и instance сегментация объектов. Участие можно принять в течение следующих двух месяцев. Подробная информация о соревновании доступна по ссылке.
Компьютерное зрение стремительно развивается. Несмотря на это, точность моделей несравнима с человеком.
Open Images — это опубликованный датасет с 9 миллионами аннотированных изображений. Изображения, помимо аннотации объектов, содержат категорию, границы объектов, маски объектов и визуальные отношения между объектами.
В этом году публикация Open Images V5 позволила включить в соревновании следующие три направления:
- Распознавание объектов для детектирования границ объектов (перезапуск соревнования 2018 года);
- Выявление визуальных взаимосвязей объектами на изображении (перезапуск соревнования 2018 года);
- Instance сегментация объектов на изображении
Распознавание объектов
Обучающая выборка состоит из 12.2 миллионов границ объектов из 500 категорий на 1.7 миллионе изображений. Границы размечались вручную профессиональными аннотаторами, чтобы минимизировать процент неточности. Изображения подбирались разнообразные и содержат комплексные сцены с несколькими объекта (в среднем 7 объектов на изображении).
Предсказание визуальных взаимосвязей между парой объектов
В этом направлении модель должна научиться детектировать пары объектов и характер их взаимосвязи. Обучающая выборка состоит из 329 типов взаимосвязей с 375 тысячами примеров. Типы взаимосвязей включают в себя человек-объект (например, “женщина играет на гитаре”, “мужчина держит микрофон”), объект-объект (например, “пиво на столе”) и объект-атрибут (например, “сумка из кожи”).
Instance сегментация объектов
Это новое направление, которое ввели организаторы в этом году. Задача — детектировать маски объектов на изображении.
Обучающая выборка состоит из 2.1 миллиона масок объектов из 300 категорий. Валидационный набор данных состоит дополнительно из 23 тысяч масок. Маски объектов для обучающего сета были получены с помощью коррекции аннотаторами масок, сгенерированных нейросетью. Валидационный и тестовый сеты были аннотированы вручную.