fbpx
  • Какие объекты GAN генерировать не может

    Исследователи из MIT CSAIL изучили, какие объекты генеративным нейросетям сложнее синтезировать. На примере датасета LSUN churches такие классы объектов, как люди, машины и ворота, игнорируются генератором нейросети.

    Несмотря на успех генеративно-состязательных нейросетей (GAN), сбой генератора (mode collapse) остается одной из проблем обучения GAN. Генератор в GAN отвечает за синтез изображений. Сбой генератора результирует в ограниченность генерируемых моделью объектов. В своей работе исследователи визуализируют сбой генератора на уровне распределения и на уровне отдельных объектов.

    Сначала для сгенерированных изображений исследователи семантически сегментируют объекты. Это необходимо, чтобы сравнить распределения сегментированных объектов на сгенерированным и целевых изображениях. Разница в статистике показывает классы объектов, которые GAN генерировать сложнее. Затем распознанные классы объектов, которые GAN не генерирует, визуализируются напрямую. Исследователи сравнивают отдельные фотографии и распознанные объекты на целевой и сгенерированной фотографиях.

    Ниже видно распределение сегментаций объектов в обучающей выборке датасета LSUN churches и в сгенерированных изображениях. Например, такие классы объектов, как люди, машины и ворота, игнорируются генератором.

    Статистика по распознанным объектам на оригинальных и сгенерированных изображениях

    Методы исследования результатов GAN

    Цель исследования в визуализации семантических концептов, которые GAN не могут генерировать. Исследователи визуализируют результаты GAN двухуровнево: на уровне полного распределения сгенерированных объектов и на уровне отдельных изображений.

    Процесс можно поделить на следующие шаги:

    1. Сначала измеряется Generated Image Segmentation Statistics через сегментирование сгенерированных и целевых изображений и определение типов объектов, которые игнорируются GAN;
    2. Затем для сравнения отбираются кейсы, где GAN проигнорировала отдельные типы объектов. Сгенерированное изображение сравнивается с целевым из обучающей выборки

    Для второго шага находятся реальные изображения из обучающей выборки с игнорируемыми типами объектов. Эти изображения проецируются на наиболее схожие сгенерированные изображения через промежуточный слой генератора. Исследователи называют этот шаг инверсией слоя (Layer Inversion). 

    В качестве модели для семантической сегментации используется Unified Perceptual Parsing сеть. Нейросеть присваивает каждому пикселю один из 336 классов объектов.

    Визуализация метода инверсии слоя
    Пример оценки GAN на датасете LSUN bedrooms. Сверху статистика распознанных объектов в сгенерированных и в оригинальных изображениях. Снизу сравнение отдельных сгенерированных изображений и наиболее близких оригинальных изображений