fbpx
  • Нейросетевая модель от FAIR добавляет человека на фотографию

    В FAIR разработали нейросеть, которая добавляет человека на фотографию. Модель принимает на вход целевое изображение и маску человека, которого необходимо добавить на целевое изображение. На выходе модель отдает модифицированную целевую фотографию с добавленным человеком. По результатам экспериментов, модель генерирует правдоподобные изображения в высоком разрешении.

    Архитектура модели

    Подход состоит из трех подсетей:

    • Essence Generation Network (EGN) генерирует семантическую карты нового человека, учитывая позы людей на целевом изображении;
    • MCRN рендерит пиксели нового человека и маску для добавления на целевое изображение;
    • Третья сеть уточняет сгенерированное выражение лица нового человека, чтобы оно совпадало с выражениями лиц людей на целевом изображении

    Модели обучались на датасете MultiHuman Parsing.

    Визуализация структурных частей EGN модели
    Визуализация структурных частей MCRN модели

    Оценка работы модели

    Исследователи отдельно оценивали подсети в предложенном подходе на отдельных задачах. Так, MCRN обходит существующие state-of-the-art модели в переносе позы на датасете DeepFashion.

    Оценка переноса позы с помощью методов, основанных на DensePose (DP) и keypoint (KP)