fbpx
  • BachGAN: нейросеть генерирует изображения на основе карт расположения объектов

    BachGAN — это нейросеть, которая генерирует изображения в высоком разрешении на основе карт расположения объектов. Модель принимает на вход схему с целевым расположением объектов. Нейросеть заполняет остаток изображения по схеме. Разработкой нейросети занимались исследователи из University of Central Florida и Microsoft Dynamics 365 AI Research. Одним из применений модели является использование в качестве ассистента при редактировании изображения. BachGAN обходит существующие подходы на датасетах Cityscapes и ADE20K.

    Исследователи предлагают задачу генерации изображения по схеме расположения объектов. Схема включает в себя границы объектов и разметку классов объектов. Задача включает в себя две подзадачи:

    1. Как сгенерировать детализированную сцену и реалистичные текстуры без разметки сегментации;
    2. Как создать задний фон и незаметно вписать его вокруг отдельно стоящих объектов

    BachGAN призвана решить обе подзадачи. Модель сначала отбирает набор карт сегментации из широкого пула возможных сегментаций. За отбор сегментационных карт отвечает модуль извлечения заднего фона (background retrieval module). Затем модель кодирует отобранные карты с помощью модуля объединения заднего фона. Модуль позволяет воссоздать подходящий фон для объектов, которые присутствуют на схеме. BachGAN генерирует фотореалистичные изображения в высоком разрешении.

    Обзор структуры модели

    BachGAN расшифровывается как Background Hallucination Generative Adversarial Network. Модель состоит из трех компонентов:

    1. Модуль извлечения заднего фона, который отбирает маски сегментации на основе входной схемы с границами объектов;
    2. Модуль объединения заднего фона, который комбинирует схему расположения объектов и отобранные сегментационные маски для воссоздания заднего фона;
    3. Генератор изображения, который адаптирует слой SPADE для синтеза итогового изображения

    Кроме того, в модели есть дискриминаторы, как в оригинальной архитектуре GAN.

    Составные части модели

    Оценка работы нейросети

    Исследователи оценивали модель на двух открытых датасетах: Cityscapes и ADE20K. Cityscapes содержит изображения уличных сцен. В то время как ADE20K состоит из сложных сцен с 150 классами объектов. BachGAN сравнивали с SPADE, SPADE-SEG (SPADE с сегментацией) и Layout2im. Ниже видно, что BachGAN обходит базовые модели по количественным метрикам на обоих датасетах.

    Результаты сравнения на Cityscapes и ADE20K