fbpx
  • VoiceFilter-Lite: легковесная архитектура для распознавания речи

    VoiceFilter-Lite — это легковесная архитектура для распознавания речи. Это облегченная версия модели VoiceFilter. Разработкой занимались исследователи из Google AI

    В чем проблема

    В то время как VoiceFilter модель выдавала state-of-the-art результаты в соответствии с SDR метрикой, деплой модели на устройства требует учитывать ограничения по размеру модели, CPU ресурсам и памяти. Кроме того, необходимо принимать во внимание энергозатратность и минимизацию отставания. Чтобы разрешить эти ограничения, исследователи предложили VoiceFilter-Lite, облегченную версию оригинальной модели.

    Подробнее про модель

    Архитектура модели состоит из одномерной сверточной сети, LSTM и двух полносвязных слоев: для предсказания типа шума и для предсказания маски.

    Визуализация архитектуры модели

    VoiceFilter-Lite можно интегрировать в приложения по распознаванию речи, даже в случае отсутствия у пользователя интернета. По результатам экспериментов, VoiceFilter-Lite размером в 2.2 мегабайта выдает предсказания с улучшенной на 25.1% WER метрикой для аудиозаписей с пересекающейся речью.

    Составные части фреймворка с нейросетью