fbpx
  • Neural Voice Puppetry: нейросеть генерирует видеозапись по аудио

    Neural Voice Puppetry — это нейросетевой подход для генерации видеозаписи говорящего человека по аудиозаписи разговора. На вход модель получает аудиозапись целевой персоны или запись голоса виртуального ассистента. Задача модели в том, чтобы сгенерировать видеозапись целевой персоны так, чтобы она была синхронизирована с аудиозаписью. Neural Voice Puppetry обучался на коротких видеозаписях говорящих людей от 2 до 3 минут. Модель способна рендерить реалистичные видеозаписи целевой персоны, которые синхронизированы с записью речи. Предложенный метод генерирует более реалистичные видеозаписи, чем state-of-the-art подходы.

    Восстановление видеозаписи по аудио основывается на нейросети, которая работает в скрытом пространстве 3D модели лица. С помощью 3D представления модель учится генерировать сменяющиеся выражения лица стабильно. Итоговые кадры генерируются с помощью нейросетевого рендеринга. Предложенный метод обобщается на персон вне обучающей выборки. Это позволяет генерировать видео целевой персоны на основе любой аудиозаписи голоса. Одним из применений Neural Voice Puppetry является персонализация виртуальных ассистентов.

    Архитектура нейросети

    Neural Voice Puppetry состоит из двух основных частей:

    1. Обобщающая нейросеть, которая предсказывает вектор скрытого представления для соотнесения аудиозаписи с выражением лица. Пространство соотнесения аудио и выражения лица одно для всех персон. Выражения лица интерпретируются как коэффициенты 3D модели лица;
    2. Эта 3D модель лица оптимизируется во второй части нейросети, которая отвечает за генерацию специфичных для целевой персоны деталей
    Пайплайн модели

    Подход не требует специальных данных для обучения. Исследователи обучали нейросеть на видеозаписях из интернета длительностью в пару минут. Единственное требование к данным заключается в возможности вычленить пары аудио-выражение из данных.

    Тестирование модели

    Чтобы сравнить модель с конкурирующими подходами, исследователи в том числе провели опрос о качестве сгенерированных клипов. Ниже видно, что по качеству картинки Neural Voice Puppetry сравнима с целевым видео. Однако по качеству синхронизации видео и аудио модель уступает предыдущим подходам.

    Результаты опроса