fbpx
  • DurIAN: нейросеть генерирует видео и аудио к тексту

    DurIAN — это нейросеть, которая получает на вход текст и одновременно генерирует речь и видео к тексту.  Внутри DurIAN авторегрессионная модель, которая соотносит текст с выходной аудиозаписью. DurIAN более устойчива к ошибкам, чем  state-of-the-art модель Tacotron. 

    Ниже представлен пример работы нейросети. Модель сгенерировала фигуру, мимику женщины в 3D и аудиозапись ее разговора.

    Ключевой компонент системы — это Duration Informed Attention Network (DurIAN). DurIAN состоит из авторегрессивной модели, которая соотносит текст с характеристиками аудиозаписи с помощью duration model. Этот подход отличается от end-to-end механизма внимания и избегает генерацию артефактов, которые генерируют текущие системы для синтеза речи. DurIAN также может быть использована для генерации выражений лица в высоком разрешении, которые могут быть синхронизированы с сгенерированной речью. При этом модель обучается синхронизировать речь и лицо без параллельных данных для обучения. Чтобы улучшить качество генерации речи, исследователи предлагают модификацию для WaveRNN — Multi-band WaveRNN. Модифицированная модель сокращает общую вычислительную сложность с 9.8 до 3.6 GFLOPS. Multi-band WaveRNN способна генерировать речь в 6 раз быстрее, чем стандартная WaveRNN, на одном CPU. 

    Также исследователи предлагают подход для контроля за эмоциями в аудио и на видео.

    Архитектура модели

    Структура модели состоит из 4-х блоков: 

    1. Skip кодировщик, который кодирует фонемы и ударения в тексте;
    2. Alingment модель соотносит входные фонемы и части аудиозаписи, который отдаются на выходе;
    3. Авторегрессивный декодировщик генерирует выходные аудиозапись речи и видеозапись лица по частям;
    4.  Post-net предсказывает остатки, которые не предсказал декодировщик
    Визуализация составных частей модели

    Результаты экспериментов

    Чтобы сравнить работу DurIAN и Tacotron 2, исследователи проводят опрос. Участники опроса должны по пятибалльной шкале оценить реалистичность сгенерированных моделями голосов. Ниже видно, что результаты моделей схожи по реалистичности. 

    Среднее по результатам опроса. Оценки выставлялись по пятибалльной шкале, где 5 — прослушанную речь не отличить от человеческой