WaveNetEQ нейросеть улучшает качество аудиозаписи

WaveNetEQ — это генеративная нейросеть, которая восстанавливает утерянные части аудиозаписи во время звонка. Модель основана на архитектуре WaveRNN от DeepMind. Исследователи выучили WaveNetEQ генерировать продолжение короткой аудиозаписи. Результаты модели сопоставимы с state-of-the-art. При этом модель достаточно быстро работает на инференсе, чтобы обрабатывать данные звонка непосредственно в мобильном устройстве. WaveNetEQ внедрена в приложение Google Duo.

Описание проблемы

Онлайн-звонки являются одной из частей обыденной жизни миллионов людей. Чтобы передать звонок по интернету, данные звонка делятся на короткие части, которые называются пакеты. Пакеты передаются по сети от отправителя к получателю. После того как пакеты дошли до получателя, они обратно собираются в аудиозапись. Однако пакеты часто приходят в неверном порядке или в неверное время. Получается, что итоговая аудиозапись у получателя может содержать искажения или паузы. В Google Duo 20% звонков теряют более 3% от всей аудиозаписи звонка, а 10% — более 8% от аудиозаписи. Исследователи предлагают восстанавливать утерянные части аудиозаписи с помощью нейросети.

Что внутри модели

Функционирующая система по восстановлению аудиозаписи (PLC система) должна одновременно извлекать информацию о контексте аудиозаписи и генерировать продолжение аудиозаписи. WaveNetEQ состоит из двух частей:

Авторегрессионную нейросеть, которая генерирует продолжение аудиозаписи;
Условная сеть, которая моделирует долгосрочные признаки, как, например, голос

Визуальное представление архитектуры модели

На вход модель получает спектрограмму прошлого аудиосигнала, которая обрабатывается в условной сети. Выход условной сети поступает в авторегрессионную сеть.

Симуляция потери пакетов. Синяя линия — оригинальная аудиозапись, оранжевая линия — предсказание модели для таймстепа, указанного внизу вертикальной линии

Google AI

Описание проблемы

Что внутри модели

Читайте также