Информация в больших наборах данных с открытым исходным кодом таких как ImageNet, Open Images, Conceptual Captions часто искажена географически. В датасетах представлены данные только той страны, в которой они были собраны. Это приводит к ошибкам моделей ML: алгоритмы работают менее эффективно на изображениях, полученных из других географических регионов.
На картинке показан классификатор изображений, обученный на наборе данных Open Images. Алгоритм неправильно применяет ярлыки, связанные со свадьбой, к изображениям свадебных традиций разных стран.
Условия конкурса
Чтобы поощрить разработку методов машинного обучения, которые будут более надежными и географически инклюзивными, обучаясь на несовершенных наборах данных, Google объявил конкурс Inclusive Images на Kaggle совместно с NIPS Competition Track.
Конкурс официально стартовал 5 сентября и завершится 5 ноября. Результаты соревнования будут представлены на конференции NIPS 2018. Призовой фонд — $25 000. Так выглядит турнирная таблица на утро 12 сентября:
Соревнование состоит из трёх этапов: сначала участникам нужно обучить модель на датасете Open Images, который содержит изображения, собранные в Северной Америке и Западной Европе. На втором и третьем этапах работа моделей будет оцениваться с помощью тестовых изображений, собранных волонтёрами в других географических регионах.
Подробности в блоге Google.
Интересные статьи по теме: