Uni-TTSv4: модель Microsoft, преобразовывающая текст в речь

Microsoft представила обновление Uni-TTS — модели, преобразовывающей текст в речь. Uni-TTSv4 обеспечивает наилучшее качество речи среди аналогичных state-of-the-art моделей и в ближайшее время будет доступна в Azure более чем на 100 языках.

Преобразование речи в текст используется для создания голосовых помощников и озвучивания контента, в инструментах для людей с ограниченными возможностями и многих других приложениях. Первая версия Microsoft Uni-TTS была представлена три года назад. С тех пор модель была внедрена в такие продукты Microsoft, как Edge, Immersive Reader и Office. Она также используется AT&T, Duolingo, Progressive и другими компаниями. Пользователи могут выбрать один из нескольких предустановленных голосов или создать собственный голос.

В Microsoft улучшили качество модели путем добавления в синтезированную речь крупно- и мелкомасштабных особенностей, имитирующих естественную речь. Для этого в Uni-TTS было внесено два изменения. Во-первых, появилась новая архитектура с блоками преобразования и свертки, которые лучше моделируют локальные и глобальные зависимости в акустической модели. Во-вторых, теперь модель моделирует изменения в стиле речи на основе явных (идентификатор говорящего, идентификатор языка, высота тона и длительность) и неявных признаков (просодия на уровне высказывания и фонемы). Учет этих признаков обеспечивает естественность и выразительность речи.

Новая версия модели, Uni-TTSv4, сейчас доступна на восьми языках и будет расширена более чем на 110 языков в ближайшее время. Модель будет доступна в API Azure TTS, а также Microsoft Office и Edge.

Читайте также