fbpx
  • MarioNETte: нейросеть меняет выражение лица на изображении

    Генеративная нейросеть MarioNETte меняет выражение лица человека на изображении. На вход нейросети дополнительно подается выражение лица, которое необходимо перенести. MarioNETte обходит state-of-the-art подходы и генерирует более реалистичные изображения. Разработкой модели занимались исследователи из Hyperconnect.

    Проблема текущих моделей

    Модель принимает на вход целевое изображение и фотографии референса выражения. Целевой личностью является входное изображение лица, выражение которого необходимо преобразовать. Лицо, с которого берется выражение, называется driver personality. Когда существует расхождение между целевой личностью и личностью, чье выражение необходимо перенести, модели значительно теряют в реалистичности сгенерированных изображений. Этот эффект особенно проявляется в случае с использованием few-shot обучения. Проблема сохранения черт целевой личности, когда модель теряет информацию о целевом лице при переносе выражения, является одной из наиболее популярных. Причины возникновения проблемы разнообразны: от частичного отсутствия целевого лица на изображении до утечки данных лица, чье выражение переносится.

    Чтобы решить проблему сохранения черт целевого лица, исследователи добавляют специальные блоки в модель: image attention block, target feature alignment и landmark transformer. MarioNETte правдоподобно переносит выражения лиц в few-shot формате. Few-shot формат подразумевает, что в модель подаются несколько фотографий целевого лица. Такое решение позволяет модели генерировать изображения для лиц, которых не было в обучающей выборке.

    Архитектура модели

    Основное преимущество MarioNETte — фокус на сохранении черт целевого лица. Модель не требует дополнительной настройки и может перенести выражение на любое лицо. Детали архитектуры, которые позволяют модели выдавать реалистичные результаты, включает в себя:

    1. Блок внимания изображения (image attention block), который отбирает релевантную информацию о стиле лица из всех целевых изображений;
    2. Часть с соотнесением целевых черт, который позволяет модели внедрять информацию о стиле лица из целевых изображений в сгенерированное изображение;
    3. Трансформер структуры лица (landmark transformer), который отвечает за регулировку структурных различий между целевым и driver лицами

    Сама модель делится на кодировщик для driver лица, кодировщик для целевого лица и декодировщик.

    Визуализация архитектуры нейросети

    Проверка работы модели

    Чтобы оценить качество модели, исследователи сравнивают ее результаты с предыдущими методами: X2Face, Monkey-Net и NeuralHead. Ниже видно, что на отобранных примерах MarioNETte выдает более консистентные результаты.

    Сравнение результатов моделей на отдельных примерах