В FAIR разработали нейросеть, которая добавляет человека на фотографию. Модель принимает на вход целевое изображение и маску человека, которого необходимо добавить на целевое изображение. На выходе модель отдает модифицированную целевую фотографию с добавленным человеком. По результатам экспериментов, модель генерирует правдоподобные изображения в высоком разрешении.
Архитектура модели
Подход состоит из трех подсетей:
- Essence Generation Network (EGN) генерирует семантическую карты нового человека, учитывая позы людей на целевом изображении;
- MCRN рендерит пиксели нового человека и маску для добавления на целевое изображение;
- Третья сеть уточняет сгенерированное выражение лица нового человека, чтобы оно совпадало с выражениями лиц людей на целевом изображении
Модели обучались на датасете MultiHuman Parsing.
Оценка работы модели
Исследователи отдельно оценивали подсети в предложенном подходе на отдельных задачах. Так, MCRN обходит существующие state-of-the-art модели в переносе позы на датасете DeepFashion.