Agriculture-Vision — это датасет для семантической сегментации с фотографиями фермерских полей. Изображения были сняты с воздуха. Всего в датасете около 95 тысяч фотографий в высоком разрешении с 3 тысяч угодий по США. Исследователи разметили 9 типов аномалий на изображениях, которые наиболее важны для фермеров. В качестве пилотного эксперимента исследователи протестировали на данных state-of-the-art модели для семантической сегментации. Кроме этого, они предложили модель, которая адаптирована под задачу. Вскоре на основе датасета запустят контест. На воркшопе CVPR 2020 представят выигрышные решения соревнования. Подробности соревнования будут доступны по ссылке.
Что в датасете
Всего в датасете 94,986 изображений полей с 3,432 фермерских угодий. Каждое изображение состоит из RGB и NIR каналов с разрешением в 10 см на пиксель. Аннотация датасета происходила вручную с помощью 5 обученных добровольцев. Всего эксперты выделили 9 классов проблем на изображениях полей. Среди них — проблема высохшего поля, недостаток питательных веществ и последствия шторма.
Результаты пилотного тестирования
Исследователи базово проверили, как стандартные модели для семантической сегментации справляются с сегментацией снимков полей. В качестве стандартной модели они использовали вариации DeepLabv3. Предложенная модель (ниже в таблице — Ours) основывалась на FPN. Видно, что FPN-подход выдает в среднем более точно сегментирует фотографии полей, чем DeepLabv3.