fbpx
  • ObjectNet: датасет с объектами, которые сложно распознать нейросети

    ObjectNet — это датасет для задач компьютерного зрения. В ObjectNet нет разделения на обучающую и тестовую выборки, доступна только тестовая. С помощью датасета можно проверить обобщающую способность обученной нейросети. Созданием датасета занимались исследователи из MIT. Точность предсказаний обученных моделей падало на 40-45% при тестировании на ObjectNet.

    Одной из проблем в обучении нейросетей является ограниченная способность обученной модели к генерализации. Текущие базовые датасеты для компьютерного зрения неполно отражают многообразие изображений объектов в реальном мире. Чтобы повысить способность моделей к генерализации, необходимо обучать их на более сложных и близких к реальности данных. 

    Что внутри данных

    Исследователи собрали датасет с изображениями предметов с разных углов и с новыми задними фонами. Датасет для тестирования моделей состоит из 50 тысяч изображений. Размер ObjectNet совпадает с ImageNet. При этом отдельно контролировали разнообразие таких характеристик, как угол обзора, задний фон и повороты объекта. В ObjectNet содержатся 313 уникальных классов, которые совпадают с классами в ImageNet.

    При тестировании моделей на собранном датасете исследователи заметили значительное снижение качества предсказаний. ObjectNet лучше отражает разнообразие изображений объектов в реальном мире. Кроме этого, датасет устойчив к дообучению и является сложной задачей для transfer learning. 

    Прост для людей, но сложный для нейросети

    Ниже видно, что последние нейросетевые архитектуры на 40-45% падают в точности при тестировании на ObjectNet. ObjectNet и проще, чем ImageNet, из-за того, что объекты на изображениях находятся по центру и не перекрывают друг друга. При этом собранный датасет сложнее из-за разнообразия задних фонов, углов обзора и сторон объекта.

    Сравнение точности моделей при тестировании на ImageNet и  ObjectNet