fbpx
  • SketchTransfer: датасет для обучения нейросетей обобщению

    SketchTransfer — это датасет для обучения нейросетей обобщению с помощью transfer learning. Данные состоят из реальных размеченных изображений и не размеченных скетчей. Стандартные state-of-the-art подходы, которые получают точность 95% на MNIST, на SketchTransfer выдают предсказания с точностью 59%. При этом выдача предсказаний случайным образом дает точность 11%. 

    Описание проблемы

    Нейросети на текущий момент хорошо справляются с задачами на восприятие. Несмотря на это, они обладают ограниченной способностью к обобщению знаний на данные, которые отсутствовали в обучающей выборке. Исследователи сфокусировались на том, чтобы обучить модель, которая безразлична к отсутствию деталей. Например, люди могут смотреть упрощенную версию реальности в формате мультфильма без дополнительного обучения. SketchTransfer собирали для того, чтобы побудить исследования в области генерализующей способности нейросетей.

    Что внутри датасета

    Обучающая выборка SketchTransfer состоит из двух частей: размеченные реальные изображения и не размеченные скетчи. Исследователи в качестве размеченных реальных изображений использовали данные из CIFAR-10. В качестве изображений скетчей были использованы данные из датасета quickdraw. Последний содержит зарисовки 345 типов объектов, которые нарисовали добровольцы. На каждый скетч выделялось максимум 20 секунд. В SketchTransfer оригинальные изображения скетчей отрендерили и зафиксировали разрешение 32×32.

    В quickdraw датасете больше классов, чем в CIFAR-10: 345 против 10. При этом сами категории более детальные и слегка отличаются. Чтобы сопоставить классы из одного датасета классам из другого, исследователи вручную сгруппировали часть классов из quickdraw по тем категориям, которые есть в CIFAR-10.