fbpx
  • Deep Network Priors: unsupervised метод подавления аудиошума

    нейросеть для шумоподавления

    Ученые из Тель-Авивского университета разработали метод Deep Network Priors для шумоподавления, идея которого схожа с методом Deep Image Prior, но в применении к звуку. Он объединяет обработку как во временной, так и в частотно-временной области. Результаты превосходят все unsupervised методы и приближаются к supervised методам.

    Идея метода

    Многие unsupervised методы работают по следующему принципу:

    • Cначала оценивается спектральная маска, которая предсказывает для каждой частоты, относится ли она к чистому сигналу или подвержена зашумленности.
    • Затем один из немногих классических методов, таких как фильтр Винера или MMSE-LSA, используется для очистки аудио.

    Методы шумоподавления отличаются способом, которым в начале оценивается маска. Каждый метод основан на различном наборе основных предположений о свойствах сигнала, шума, или того и другого. Например, некоторые алгоритмы предполагают, что мощность шума в спектре изменяется медленнее, чем в чистом сигнале и, следовательно, для оценки статистики шума выполняется усреднение мощности сигнала по нескольким временным точкам.

    В методе Deep Network Priors исследуется применение глубоких сетевых априоров для задачи unsupervised шумоподавления в аудио. Эти априоры основаны на предположении, что чистый сигнал во временной области хорошо улавливается глубокой сверточной нейронной сетью. Таким образом, метод обучает сеть, чтобы соответствовать входному сигналу, и улавливает ту часть сигнала, которая имеет наибольшее количество неопределенности, т.е. которая была смоделирована наиболее плохо. Затем строится маска этой части, и к ней применяется один из классических методов улучшения речи.

    Принцип работы

    Сеть использует CNN-архитектуру WaveUnet, которая состоит из кодера и декодера с residual-соединениями между парами слоев.

    Создается случайный входной сигнал z того же размера, что и шумовой сигнал y = x + n (предполагается модель аддитивного шума, а чистый сигнал х и шум n неизвестны). Затем обучается сеть, минимизируя функцию.

    где θ — вектор параметров функции f.
    Нестабильность в процессе обучения. (a-d) — выходной результат модели f_i(z) в течение четырех последовательных итераций. (e-g) — разница между парами последовательных итераций. (h) — спектрограмма чистого сигнала.

    Одного лишь этого функционала оказалось недостаточно — чистый сигнал x так и не был достигнул экспериментально в связи с нестабильностью в процессе обучения. Исследователи разработали алгоритм для оценки априорного SNR чистого сигнала, который призван решить возникшие проблемы:


    В качестве входа метода — сигнал Y. На выходе — маска размером STFT стигнала со значениями в диапазоне [0, 1].

    После вычисления случайного вектора z во второй строке метод проходит итеративный процесс для t итераций. Каждая итерация (где i — ее индекс) состоит из следующих шагов. Во-первых, в строке 6 алгоритма сеть f_i−1 обучается за одну итерацию, получая f_i. Затем в строке 7 вычисляется f_i(z) и его STFT для каждой Y_i. Затем мы вычисляем значение H_i, которое является абсолютной разностью между |Y_i| и |Y_i − 1|, затем нормализуется значением |Y_i|.

    Чтобы избежать экстремальных значений, каждое значение H_i выше 90-го процентиля и ниже 10-го процентиля обрезается. Аккумулятор C суммирует полученные матрицы (строка 12). Аккумулятор будет иметь высокие значения в координатах частотно-временной области, в которой наименьшая стабильность восстановления y по сети f.

    Как только t итераций окончены, C нормализуется, чтобы находиться в диапазоне [0, 1] (строка 14). Высокая накопленная изменчивость подразумевает шум, и поэтому мы переворачиваем значения (max(C) — C, а не C — min(C)), прежде чем вернуть маску М.

    С этой оценкой априорного SNR можно использовать классический метод шумоподавления, такой как LSA или фильтр Винера.

    Итоги

    Количественная оценка шумоподавления. Более высокий балл означает лучшую производительность.

    Результаты тестирования вы можете прослушать здесь. Из таблицы видно, что оценка метода Deep Network Priors (Ours) на большинстве задач показала себя лучшей среди других unsupervised методов и оказалось близкой к значениям supervised модели SEGAN.