ImageNet-A — это датасет с примерами изображений, которые нейросеть не может классифицировать верно. По результатам, модели предсказывали объекты из датасета с точностью в 3%. В то время как для стандартного ImageNet точность предсказаний составляла 97%. ImageNet-A был собран исследователями из University of Berkeley, University of Washington и University of Chicago.
Данные состоят из 7.5 тысяч изображений объектов, которые нейросети сложно классифицировать. Эти объекты — это “естественные состязательные примеры” для нейросетей. Особенность изображений в том, что они содержат естественные оптические иллюзии, которые нейросеть не может распознать.
Детали создания датасета
Датасет содержит объекты 200 классов. Классы объектов для датасета выбирались на основе следующих критериев:
- Не использовать редкие классы объектов (например, снежный леопард);
- Объекты, которые менялись после 2012 года (например, iPod);
- Абстрактные классы объектов (например, спираль);
- Классы объектов, которые представляют фон изображения (например, долина);
- Пересекающиеся классы объектов
Для фильтрации изображений объектов, которые плохо предсказываются нейросетью, исследователи использовали две ResNet-50 нейросети. Одна была предобучена на ImageNet-1K и дообучена на подвыборке из 200 классов. Вторая была предобучена на ImageNet-1K, где 200 из 1000 классов использовались для классификации. Оба классификатора имели схожую точность. Если какая-либо из моделей присваивала изображению класс с уверенностью более чем 15%, изображение отбрасывалось.
Результаты
Результаты проверялись на DenseNet-121 и ResNeXt-50 архитектурах. Обе модели предсказывают объекты из датасета с точностью в 3%. В то время как для стандартного ImageNet точность предсказаний составляет 97%. Результаты незначительно улучшаются при использовании трюков для увеличения устойчивости классификаторов. Среди тех трюков, которые были попробованы: состязательное обучения, аугментация данных, метрики неуверенности в предсказании.
Почему это важно
ImageNet-A был опубликован для исследований устойчивости нейросетей к неоднозначным изображениям объектов. Исследования в области помогут увеличить обобщающую способность моделей.