VoiceFilter-Lite: легковесная архитектура для распознавания речи

VoiceFilter-Lite — это легковесная архитектура для распознавания речи. Это облегченная версия модели VoiceFilter. Разработкой занимались исследователи из Google AI. 

В чем проблема

В то время как VoiceFilter модель выдавала state-of-the-art результаты в соответствии с SDR метрикой, деплой модели на устройства требует учитывать ограничения по размеру модели, CPU ресурсам и памяти. Кроме того, необходимо принимать во внимание энергозатратность и минимизацию отставания. Чтобы разрешить эти ограничения, исследователи предложили VoiceFilter-Lite, облегченную версию оригинальной модели.

Подробнее про модель

Архитектура модели состоит из одномерной сверточной сети, LSTM и двух полносвязных слоев: для предсказания типа шума и для предсказания маски.

Визуализация архитектуры модели

VoiceFilter-Lite можно интегрировать в приложения по распознаванию речи, даже в случае отсутствия у пользователя интернета. По результатам экспериментов, VoiceFilter-Lite размером в 2.2 мегабайта выдает предсказания с улучшенной на 25.1% WER метрикой для аудиозаписей с пересекающейся речью.

Составные части фреймворка с нейросетью
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt