Neural Voice Puppetry: нейросеть генерирует видеозапись по записи речи

нейросеть генерирует видео по записи речи

Neural Voice Puppetry — это нейросеть для генерации видеозаписи говорящего человека по аудиозаписи речи. На вход модель получает аудиозапись целевой персоны или запись голоса виртуального ассистента. Задача модели в том, чтобы сгенерировать видеозапись целевой персоны так, чтобы она была синхронизирована с аудиозаписью. Neural Voice Puppetry обучался на коротких видеозаписях говорящих людей от 2 до 3 минут. Модель способна рендерить реалистичные видеозаписи с лицом человека, которые синхронизированы с записью речи. Предложенный метод генерирует более реалистичные видеозаписи, чем state-of-the-art подходы.

Восстановление видеозаписи по аудио основывается на нейросети, которая работает в скрытом пространстве 3D модели лица. С помощью 3D представления модель учится генерировать сменяющиеся выражения лица стабильно. Итоговые кадры генерируются с помощью нейросетевого рендеринга. Предложенный метод обобщается на персон вне обучающей выборки. Это позволяет генерировать видео целевой персоны на основе любой аудиозаписи голоса. Одним из применений Neural Voice Puppetry является персонализация виртуальных ассистентов.

Архитектура Neural Voice Puppetry

Neural Voice Puppetry состоит из двух основных частей:

Обобщающая нейросеть, которая предсказывает вектор скрытого представления для соотнесения аудиозаписи с выражением лица. Пространство соотнесения аудио и выражения лица одно для всех персон. Выражения лица интерпретируются как коэффициенты 3D модели лица;
Эта 3D модель лица оптимизируется во второй части нейросети, которая отвечает за генерацию специфичных для целевой персоны деталей

neural voice puppetry approach — Пайплайн модели

Подход не требует специальных данных для обучения. Исследователи обучали нейросеть на видеозаписях из интернета длительностью в пару минут. Единственное требование к данным заключается в возможности вычленить пары аудио-выражение из данных.

Тестирование нейросети

Чтобы сравнить модель с конкурирующими подходами, исследователи в том числе провели опрос о качестве сгенерированных клипов. Ниже видно, что по качеству картинки Neural Voice Puppetry сравнима с целевым видео. Однако по качеству синхронизации видео и аудио модель уступает предыдущим подходам.