MPG: GAN генерирует изображения пиццы на основе лейблов

MPG — это GAN модель для условной генерации изображений на основе нескольких лейблов. Архитектура MPG основывается на state-of-theart GAN модели StyleGAN2. 

Зачем это нужно 

Условная генерация изображений на основе нескольких лейблов является актуальной задачей в компьютерном зрении. Проблема мультизначной генерации изображений (multilabel image generation) подразумевает, что на вход модель принимает список из лейблов, которые описывают содержание изображения. На выходе модель отдает сгенерированное в соответствии с входным списком изображение.

Подробнее про архитектуру модели

Multiingredient Pizza Generator (MPG) является условной генеративно-состязательной моделью. Исследователи адаптировали архитектуру StyleGAN2 под задачу мультизначной условной генерации изображений. Исследователи добавили в модель новый механизм условной генерации, в котором промежуточные карты признаков используются для выучивания данных о лейблах. Кроме того, модель регуляризуется за счет предсказания ингредиентов и модуля дискриминатора.

Детали структуры составных частей модели

Тестирование подхода

Работу модели тестировали на датасете Pizza10. Нейросеть обучили генерировать изображения пиццы по списку ингредиентов. MPG успешно справляется с генерацией фотореалистичных изображений пиццы с требуемыми ингредиентами. Фреймворк масштабируется на другие задачи мультизначной генерации изображений.

 

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt