DatasetGAN: генератор синтетических аннотированных датасетов NVIDIA

NVIDIA представила DatasetGAN – генератор синтетических изображений с аннотациями. Система требует в качестве входных данных до 40 вручную аннотированных изображений и превосходит существующие state-of-the-art модели.

Использование синтетических данных для обучения нейронных сетей становится все более популярным, поскольку в этом случае снижаются трудозатраты, связанные с созданием больших датасетов. Хотя генеративно-состязательные нейросети могут создавать бесконечное количество уникальных высококачественных изображений, для  алгоритмов обучения систем компьютерного зрения требуются датасеты с большим количеством аннотаций.  Система работает так: сначала выполняется ручное аннотирование изображений, а затем интерпретатор обучается на этих данных создавать аннотации объектов по пространству скрытых переменных. Для создания реалистичных изображений в DatasetGAN используется технология NVIDIA StyleGAN. DatasetGAN может быть обучен минимум на 16 вручную аннотированных изображениях и обладает эффективностью, сравнимой с полностью управляемыми системами, требующими в 100 раз больше аннотированных изображений.

DatasetGAN – это генеративно-состязательная нейросеть, состоящая из генератора, который учится создавать реалистичные изображения, и дискриминатора, который учится отличать их от реальных изображений. После обучения используется только генератор, создающий новые изображений. Подход NVIDIA заключается в том, что пространство скрытых переменных, используемое в качестве входных данных для генератора, содержит семантическую информацию о сгенерированном изображении и, следовательно, позволяет создавать аннотации. NVIDIA создала обучающий датасет для своей системы, сгенерировав несколько изображений и сохранив связанные с ними скрытые переменные. Синтетические изображения были вручную аннотированы, а затем скрытые переменные сопрягались с аннотациями для обучения. После этого датасет использовался для обучения ансамбля классификаторов на основе многослойных персептронов, используемых в качестве интерпретатора стилей. Входные данные классификатора состоят из векторов признаков, создаваемых нейросетью для генерации каждого пикселя, а выходные данные представляют собой метку для каждого пикселя. Например, когда нейросеть генерирует изображение человеческого лица, интерпретатор формирует аннотации, указывающие на часть лица, например «нос» или «ухо».

Для определения возможностей DatasetGAN исследователи обучили интерпретатор на синтетических, вручную аннотированных изображениях комнат, машин, лиц людей, птиц и кошек. В каждом случае использовалось 16 до 40 примеров изображений. Оценка эффективности нейросети, выполненная с использованием бенчмарков Celeb-A и Stanford Cars, показала, что DatasetGAN превосходит state-of-the-art модели.

Подписаться
Уведомить о
guest

1 Comment
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Сергей Сисюкин

Интересно, как это будет работать, например с вот такими данными?

1140.jpg

gogpt