MarioNETte: нейросеть меняет выражение лица на изображении

Генеративная нейросеть MarioNETte меняет выражение лица человека на изображении. На вход нейросети дополнительно подается выражение лица, которое необходимо перенести. MarioNETte обходит state-of-the-art подходы и генерирует более реалистичные изображения. Разработкой модели занимались исследователи из Hyperconnect.

Проблема текущих моделей

Модель принимает на вход целевое изображение и фотографии референса выражения. Целевой личностью является входное изображение лица, выражение которого необходимо преобразовать. Лицо, с которого берется выражение, называется driver personality. Когда существует расхождение между целевой личностью и личностью, чье выражение необходимо перенести, модели значительно теряют в реалистичности сгенерированных изображений. Этот эффект особенно проявляется в случае с использованием few-shot обучения. Проблема сохранения черт целевой личности, когда модель теряет информацию о целевом лице при переносе выражения, является одной из наиболее популярных. Причины возникновения проблемы разнообразны: от частичного отсутствия целевого лица на изображении до утечки данных лица, чье выражение переносится.

Чтобы решить проблему сохранения черт целевого лица, исследователи добавляют специальные блоки в модель: image attention block, target feature alignment и landmark transformer. MarioNETte правдоподобно переносит выражения лиц в few-shot формате. Few-shot формат подразумевает, что в модель подаются несколько фотографий целевого лица. Такое решение позволяет модели генерировать изображения для лиц, которых не было в обучающей выборке.

Архитектура модели

Основное преимущество MarioNETte — фокус на сохранении черт целевого лица. Модель не требует дополнительной настройки и может перенести выражение на любое лицо. Детали архитектуры, которые позволяют модели выдавать реалистичные результаты, включает в себя:

Блок внимания изображения (image attention block), который отбирает релевантную информацию о стиле лица из всех целевых изображений;
Часть с соотнесением целевых черт, который позволяет модели внедрять информацию о стиле лица из целевых изображений в сгенерированное изображение;
Трансформер структуры лица (landmark transformer), который отвечает за регулировку структурных различий между целевым и driver лицами

Сама модель делится на кодировщик для driver лица, кодировщик для целевого лица и декодировщик.

Визуализация архитектуры нейросети

Проверка работы модели

Чтобы оценить качество модели, исследователи сравнивают ее результаты с предыдущими методами: X2Face, Monkey-Net и NeuralHead. Ниже видно, что на отобранных примерах MarioNETte выдает более консистентные результаты.

Сравнение результатов моделей на отдельных примерах

Генеративная нейросеть

Проблема текущих моделей

Архитектура модели

Проверка работы модели

Читайте также