fbpx
  • WaveNetEQ нейросеть улучшает качество аудиозаписи

    WaveNetEQ — это генеративная нейросеть, которая восстанавливает утерянные части аудиозаписи во время звонка. Модель основана на архитектуре WaveRNN от DeepMind. Исследователи выучили WaveNetEQ генерировать продолжение короткой аудиозаписи. Результаты модели сопоставимы с state-of-the-art. При этом модель достаточно быстро работает на инференсе, чтобы обрабатывать данные звонка непосредственно в мобильном устройстве. WaveNetEQ внедрена в приложение Google Duo.

    Описание проблемы

    Онлайн-звонки являются одной из частей обыденной жизни миллионов людей. Чтобы передать звонок по интернету, данные звонка делятся на короткие части, которые называются пакеты. Пакеты передаются по сети от отправителя к получателю. После того как пакеты дошли до получателя, они обратно собираются в аудиозапись. Однако пакеты часто приходят в неверном порядке или в неверное время. Получается, что итоговая аудиозапись у получателя может содержать искажения или паузы. В Google Duo 20% звонков теряют более 3% от всей аудиозаписи звонка, а 10% — более 8% от аудиозаписи. Исследователи предлагают восстанавливать утерянные части аудиозаписи с помощью нейросети.

    Что внутри модели

    Функционирующая система по восстановлению аудиозаписи (PLC система) должна одновременно извлекать информацию о контексте аудиозаписи и генерировать продолжение аудиозаписи. WaveNetEQ состоит из двух частей: 

    • Авторегрессионную нейросеть, которая генерирует продолжение аудиозаписи;
    • Условная сеть, которая моделирует долгосрочные признаки, как, например, голос  
    Визуальное представление архитектуры модели

    На вход модель получает спектрограмму прошлого аудиосигнала, которая обрабатывается в условной сети. Выход условной сети поступает в авторегрессионную сеть.

    Симуляция потери пакетов. Синяя линия — оригинальная аудиозапись, оранжевая линия — предсказание модели для таймстепа, указанного внизу вертикальной линии