fbpx
  • Нейросеть генерирует видеолекции на основе аудиозаписей

    Исследователи из Udacity разработали нейросеть LumièreNet, которая на основе аудиоклипов синтезирует видеолекции в высоком разрешении. Примеры сгенерированных видеозаписей находятся по ссылкам: первый пример, второй пример.

    В отличие от предшествующих моделей, LumièreNet полностью состоит из обучаемых нейросетевых модулей, которые конвертируют аудио в видео через скрытые коды и модуль с сохранением позы человека.

    Архитектура нейросети

    Предложенная модель состоит из трех нейросетевых модулей:

    1. BLSTM модель, которая ассоциирует полученные из аудио характеристики с скрытыми кодами;
    2. VAE модель, которая предсказывает позу человека по скрытым кодам из BLSTM;
    3. SeqPix2Pix модель, которая генерирует видеокадры на основе поз, которые были получены из VAE

    Во время обучения LumièreNet использует VAE модель, чтобы сгенерировать скрытые изображения поз человека с помощью кодировщика и декодировщика. Чтобы предсказывать позу лектора, исследователи использовали существующий фреймворк DensePose. SeqPix2Pix, которую предлагают исследователи, — это модификация Pix2Pix архитектуры. SeqPix2Pix использует генеративную нейросеть, чтобы выучить сопоставление между аудиоданными и видеокадрами.

    Обзор составных частей модели

    Исследователи записали четырехчасовую лекцию и использовали ее для обучения нейросети. В видеозаписи лектора не перезаписывали после оговорок или иных мелких ошибок. Это необходимо было, чтобы видеозапись была максимально приближена к реальной записи видеолекции. Видео записали на 30 кадров в секунду и поделили на блоки по 3-4 минуты. Для обучения использовался 1 кадр на каждую секунду видео.

    Проверка работы модели

    Чтобы проверить, насколько предложенная модель сравнима с базовыми моделями, исследователи качественно и количественно сравнили результаты. В качестве базовых моделей — функция потерь стандартной GAN и то же с добавлением ограничения на консистентность структуры изображения.  

    Видно, что SeqPix2Pix справляется лучше как и в случае качественного сравнения результатов, так и в случае количественной оценки. 

    Количественные результаты на изображениях из двух тестовых датасетов. По порядку для 3 моделей отображаются метрики: MSE / PSNR / SSIM
    Выборочные результаты генерации поз человека: слева настоящая поза, справа — предсказанная