Нейросеть генерирует видеолекции на основе аудиозаписей

Исследователи из Udacity разработали нейросеть LumièreNet, которая на основе аудиоклипов синтезирует видеолекции в высоком разрешении. Примеры сгенерированных видеозаписей находятся по ссылкам: первый пример, второй пример.

В отличие от предшествующих моделей, LumièreNet полностью состоит из обучаемых нейросетевых модулей, которые конвертируют аудио в видео через скрытые коды и модуль с сохранением позы человека.

Архитектура нейросети

Предложенная модель состоит из трех нейросетевых модулей:

  1. BLSTM модель, которая ассоциирует полученные из аудио характеристики с скрытыми кодами;
  2. VAE модель, которая предсказывает позу человека по скрытым кодам из BLSTM;
  3. SeqPix2Pix модель, которая генерирует видеокадры на основе поз, которые были получены из VAE

Во время обучения LumièreNet использует VAE модель, чтобы сгенерировать скрытые изображения поз человека с помощью кодировщика и декодировщика. Чтобы предсказывать позу лектора, исследователи использовали существующий фреймворк DensePose. SeqPix2Pix, которую предлагают исследователи, — это модификация Pix2Pix архитектуры. SeqPix2Pix использует генеративную нейросеть, чтобы выучить сопоставление между аудиоданными и видеокадрами.

Обзор составных частей модели

Исследователи записали четырехчасовую лекцию и использовали ее для обучения нейросети. В видеозаписи лектора не перезаписывали после оговорок или иных мелких ошибок. Это необходимо было, чтобы видеозапись была максимально приближена к реальной записи видеолекции. Видео записали на 30 кадров в секунду и поделили на блоки по 3-4 минуты. Для обучения использовался 1 кадр на каждую секунду видео.

Проверка работы модели

Чтобы проверить, насколько предложенная модель сравнима с базовыми моделями, исследователи качественно и количественно сравнили результаты. В качестве базовых моделей — функция потерь стандартной GAN и то же с добавлением ограничения на консистентность структуры изображения.  

Видно, что SeqPix2Pix справляется лучше как и в случае качественного сравнения результатов, так и в случае количественной оценки. 

Количественные результаты на изображениях из двух тестовых датасетов. По порядку для 3 моделей отображаются метрики: MSE / PSNR / SSIM
Выборочные результаты генерации поз человека: слева настоящая поза, справа — предсказанная
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt