Нейросеть от Disney Research подменяет лица на изображении

Disney Research опубликовали нейросетевой алгоритм, для автоматической замены лиц на изображениях и видео. Это первый метод, который способен рендерить фотореалистичные и консистентные по времени изображения в высоком разрешении. Модель обучается без учителя.

Исследователи выяснили, что расширение архитектуры и обучающей выборки за пределы двух человек повышает достоверность генерируемых лиц. Когда сгенерированное выражение переносится на целевое лицо, используется метод блендинга, позволяющий сохранить контраст и освещение на изображении. Чтобы добиться временной стабильности, когда модель используется на видеозаписях, исследователи внедрили стратегию уточнения предсказаний в алгоритм стабилизации ключевых точек лица. Это позволяет модели обрабатывать видеозаписи в высоком разрешении.

Что внутри модели

Процесс замены лица на целевом изображении состоит из четырех шагов:

На первом и втором этапе целевое изображение предобрабатывается: вырезается часть с лицом и лицо нормализуется;
На третьем этапе предобработанное изображение поступает на вход энкодеру и декодирует соответствующим декодером;
Четвертый этап необходим для блендинга входного лица с целевым изображением

Модель прогрессивно обучается генерировать более реалистичные целевые изображения с входным лицом. Нейросеть обучали на датасете с видеозаписями разрешением в 4K, который собрали исследователи.

Визуализация процесса обучения нейросети

Оценка работы модели

Исследователи сравнивают свою модель с тремя альтернативными архитектурами, которые считаются state-of-the-art в задаче подмены лица на изображении. Альтернативные модели включают в себя Nirkin et al., DeepFakes и DeepFaceLab. Ниже видно, что предложенная нейросеть генерирует более реалистичные изображения с меньшим количеством артефактов в сравнении с аналогами.