fbpx
  • Google AI опубликовали датасет для тестирования моделей на устойчивость к шуму

    Исследователи из Google AI опубликовали первый датасет для тестирования устойчивости моделей к шумным данным. Кроме датасета, исследователи опубликовали модель классификации для шумных данных. MentorMix обходит state-of-the-art подходы для шумных данных с top-1 точностью классификации в 67.5%.

    Синтетический и реальный шум в данных

    Между синтетическим и реальным распределениями шума в лейблах есть ряд различий:

    • Изображения с реальным шумом обычно более визуально и семантически схожи с true positive изображениями;
    • Синтетический шум — это шум на уровне классов, где все примеры одного класса одинаково шумные. В то же самое время реальный шум — это шум на уровне инстанса, где определенные изображения зашумлены сильнее остальных;
    • Изображения с реальным шумом в разметке классов могут принадлежать к классам, которые схожи с размеченным классом, но которые не включены в датасете

    Подробнее про датасет

    Датасет для тестирования устойчивости моделей к шумным данным основан на двух открытых датасетах: Mini-ImageNet и Stanford Cars. Чистые изображения постепенно заменялись на некорректно размеченные изображения, которые собирали из интернета.

    Например, в поисковике искали изображения по ключевому словосочетанию “божья коровка”. Так в датасет естественным образом попадали шумные данные. Всего в датасете 213 тысяч размеченных изображений. Датасет состоит из 10 сабсетов, в каждом из которых уровень зашумленности данных повышается: от 0% до 80%.