Нейросетевая модель от FAIR добавляет человека на фотографию

В FAIR разработали нейросеть, которая добавляет человека на фотографию. Модель принимает на вход целевое изображение и маску человека, которого необходимо добавить на целевое изображение. На выходе модель отдает модифицированную целевую фотографию с добавленным человеком. По результатам экспериментов, модель генерирует правдоподобные изображения в высоком разрешении.

Архитектура модели

Подход состоит из трех подсетей:

Essence Generation Network (EGN) генерирует семантическую карты нового человека, учитывая позы людей на целевом изображении;
MCRN рендерит пиксели нового человека и маску для добавления на целевое изображение;
Третья сеть уточняет сгенерированное выражение лица нового человека, чтобы оно совпадало с выражениями лиц людей на целевом изображении

Модели обучались на датасете MultiHuman Parsing.

Визуализация структурных частей EGN модели

Визуализация структурных частей MCRN модели

Оценка работы модели

Исследователи отдельно оценивали подсети в предложенном подходе на отдельных задачах. Так, MCRN обходит существующие state-of-the-art модели в переносе позы на датасете DeepFashion.