FAIR выложили state-of-the-art модель разделения голосов на аудио

Исследователи из Facebook AI Research опубликовали имплементацию state-of-the-art голосовой модели, которая способна разделять до 5 голосов на аудиозаписи разговора.

Прошлые методы разделения голосов на аудиозаписи были ограничены максимум двумя спикерами. Предложенная модель обходит state-of-the-art в качестве разделения и в количестве спикеров, чьи голоса может выделить.

Подробнее про модель

Ключевая идея подхода — обучать разную модель для каждого возможного количества спикеров и выбирать ту, что выступает лучше всего среди остальных. Базовая архитектура модели — это gated сверточная нейросеть, которая принимает на вход аудиоволну. Аудиоволна свертывается на этапе кодирования с помощью 1D сверток и делится на части по времени. Каждая пара частей идет на вход рекуррентной нейросети (RNN). Итоговый результат получают с помощью применения другой свертки и изменения порядков чанков (частей аудиозаписи).

Тестирование подхода

Исследователи оценивали работу модели на двух датасетах: WSJ0-2mix и WSJ0-3mix. Кроме того, датасет WSJ-mix расширили и добавили аудио с разговором 4 и 5 людей. Так получились датасеты WSJ0-4mix и WSJ0-5mix. По результатам экспериментов, модель обходит альтернативные подходы на задаче разделения голосов 2-5 спикеров.

В открытом доступе есть Pytorch имплементация метода.