FRILL: модель Google речевых представлений для мобильных устройств

Google AI представила FRILL — усовершенствованную версию модели речевых представлений TRILL, выпущенной в прошлом году. FRILL в 32 раза быстрее и занимает в 2.5 раза меньше места, чем TRILL, что позволяет использовать ее на мобильных устройствах.

Обучение представлениям — это метод машинного обучения, в котором модель обучается распознавать характерные признаки в данных, которые могут быть применены в широком диапазоне задач от обработки естественного языка до анализа и классификацией изображений. Например, с помощью TRILL можно определить возраст человека или языка, на котором он говорит. Однако использование TRILL на мобильных устройствах затрудняется и ее недостаточным быстродействием. FRILL составляет 40% от размера TRELL и работает в 32 раза быстрее на мобильном телефоне при среднем снижении точности менее чем на 2%. Это дает возможность генерировать речевые представления на смартфонах, что приведет к лучшей персонализации, улучшению пользовательского опыта и большей конфиденциальности.

Архитектура TRILL основана на модифицированной версии ResNet50, архитектуры, которая требует больших вычислительных затрат. Поэтому при разработке FRILL Google провели масштабный анализ эффективности существующих низкоресурсных архитектур на основе несемантического речевого эталона (NOSS) и двух новых задач — определения того, носит ли говорящий маску, и выделения из окружающего шума говорящих людей. Архитектура MobileNetV3 справилась с этими задачами с наилучшим соотношением точность/быстродействие и легла в основу FRILL. На сегодняшний день FRILL является наиболее эффективной моделью речевых представлений среди моделей с временем задержки менее 10 мс. Как показано на рисунке ниже, модель обладает сравнимыми с TRILL результатами тестов, однако время задержки FRILL (8.5 мс) в 32 раза меньше времени задержки TRILL (275.3 мс):

 

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt