Нейросетевая модель от FAIR добавляет человека на фотографию

В FAIR разработали нейросеть, которая добавляет человека на фотографию. Модель принимает на вход целевое изображение и маску человека, которого необходимо добавить на целевое изображение. На выходе модель отдает модифицированную целевую фотографию с добавленным человеком. По результатам экспериментов, модель генерирует правдоподобные изображения в высоком разрешении.

Архитектура модели

Подход состоит из трех подсетей:

  • Essence Generation Network (EGN) генерирует семантическую карты нового человека, учитывая позы людей на целевом изображении;
  • MCRN рендерит пиксели нового человека и маску для добавления на целевое изображение;
  • Третья сеть уточняет сгенерированное выражение лица нового человека, чтобы оно совпадало с выражениями лиц людей на целевом изображении

Модели обучались на датасете MultiHuman Parsing.

Визуализация структурных частей EGN модели
Визуализация структурных частей MCRN модели

Оценка работы модели

Исследователи отдельно оценивали подсети в предложенном подходе на отдельных задачах. Так, MCRN обходит существующие state-of-the-art модели в переносе позы на датасете DeepFashion.

Оценка переноса позы с помощью методов, основанных на DensePose (DP) и keypoint (KP)
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt