ObjectNet: датасет с объектами, которые сложно распознать нейросети

ObjectNet — это датасет для задач компьютерного зрения. В ObjectNet нет разделения на обучающую и тестовую выборки, доступна только тестовая. С помощью датасета можно проверить обобщающую способность обученной нейросети. Созданием датасета занимались исследователи из MIT. Точность предсказаний обученных моделей падало на 40-45% при тестировании на ObjectNet.

Одной из проблем в обучении нейросетей является ограниченная способность обученной модели к генерализации. Текущие базовые датасеты для компьютерного зрения неполно отражают многообразие изображений объектов в реальном мире. Чтобы повысить способность моделей к генерализации, необходимо обучать их на более сложных и близких к реальности данных.

Что внутри данных

Исследователи собрали датасет с изображениями предметов с разных углов и с новыми задними фонами. Датасет для тестирования моделей состоит из 50 тысяч изображений. Размер ObjectNet совпадает с ImageNet. При этом отдельно контролировали разнообразие таких характеристик, как угол обзора, задний фон и повороты объекта. В ObjectNet содержатся 313 уникальных классов, которые совпадают с классами в ImageNet.

При тестировании моделей на собранном датасете исследователи заметили значительное снижение качества предсказаний. ObjectNet лучше отражает разнообразие изображений объектов в реальном мире. Кроме этого, датасет устойчив к дообучению и является сложной задачей для transfer learning.

Прост для людей, но сложный для нейросети

Ниже видно, что последние нейросетевые архитектуры на 40-45% падают в точности при тестировании на ObjectNet. ObjectNet и проще, чем ImageNet, из-за того, что объекты на изображениях находятся по центру и не перекрывают друг друга. При этом собранный датасет сложнее из-за разнообразия задних фонов, углов обзора и сторон объекта.