VoiceFilter-Lite — это легковесная архитектура для распознавания речи. Это облегченная версия модели VoiceFilter. Разработкой занимались исследователи из Google AI.
В чем проблема
В то время как VoiceFilter модель выдавала state-of-the-art результаты в соответствии с SDR метрикой, деплой модели на устройства требует учитывать ограничения по размеру модели, CPU ресурсам и памяти. Кроме того, необходимо принимать во внимание энергозатратность и минимизацию отставания. Чтобы разрешить эти ограничения, исследователи предложили VoiceFilter-Lite, облегченную версию оригинальной модели.
Подробнее про модель
Архитектура модели состоит из одномерной сверточной сети, LSTM и двух полносвязных слоев: для предсказания типа шума и для предсказания маски.
VoiceFilter-Lite можно интегрировать в приложения по распознаванию речи, даже в случае отсутствия у пользователя интернета. По результатам экспериментов, VoiceFilter-Lite размером в 2.2 мегабайта выдает предсказания с улучшенной на 25.1% WER метрикой для аудиозаписей с пересекающейся речью.