MPG — это GAN модель для условной генерации изображений на основе нескольких лейблов. Архитектура MPG основывается на state-of-theart GAN модели StyleGAN2.
Зачем это нужно
Условная генерация изображений на основе нескольких лейблов является актуальной задачей в компьютерном зрении. Проблема мультизначной генерации изображений (multilabel image generation) подразумевает, что на вход модель принимает список из лейблов, которые описывают содержание изображения. На выходе модель отдает сгенерированное в соответствии с входным списком изображение.
Подробнее про архитектуру модели
Multiingredient Pizza Generator (MPG) является условной генеративно-состязательной моделью. Исследователи адаптировали архитектуру StyleGAN2 под задачу мультизначной условной генерации изображений. Исследователи добавили в модель новый механизм условной генерации, в котором промежуточные карты признаков используются для выучивания данных о лейблах. Кроме того, модель регуляризуется за счет предсказания ингредиентов и модуля дискриминатора.
Тестирование подхода
Работу модели тестировали на датасете Pizza10. Нейросеть обучили генерировать изображения пиццы по списку ингредиентов. MPG успешно справляется с генерацией фотореалистичных изображений пиццы с требуемыми ингредиентами. Фреймворк масштабируется на другие задачи мультизначной генерации изображений.