fbpx
  • В Google собрали датасет синтезированных голосов для конкурса по верификации говорящего

    Исследователи из Google AI собрали датасет из тысяч сгенерированных фраз 68 голосами. Набор данных сейчас доступен только для участников челленджа ASVspoof 2019. На конкурсе (регистрация открыта до 8 февраля) разработчики должны будут создать алгоритмы, которые различают реальные и синтезированные голоса и определяют поддельную речь в аудио- и видеозаписях

    «За последние несколько лет произошел взрыв новых разработок с использованием нейронных сетей для имитации человеческого голоса. Многие модели, в том числе разработанные в Google, генерируют реалистичную речь, практически не отличимую от человеческой. Несмотря на то что прогресс впечатляет, мы хорошо осознаем риски использования подобных технологий во вред» — написали разработчики в блоге Google AI.

    Команда Google News Initiative совместно с Google AI представила датасет из тысяч фраз на английском языке, взятых из газетных статей. Они прочитаны 68 синтетически сгенерированными голосами с разными региональными акцентами. Голоса созданы с использованием технологии синтеза речи из печатного текста (text-to-speech).

    Применение синтезированных голосов

    Подобные разработки применяются для создания голосовых помощников. Ученые берут некоторый текст, зачитанный человеком и вычленяют из него выборку фонем для синтеза голоса модели. С помощью такого подхода генерируется устный перевод в Google Translate и переводчике Яндекса, инструкции Google Maps, речь Алисы и создаются продукты, которые помогают слабовидящим пользователям ориентироваться в интернете.

    Конкурс Automatic Speaker Verification создан с целью сделать системы автоматической голосовой верификации пользователя более безопасными. Подобные конкурсы являются также одним из способов борьбы с deepfakes (поддельными видео с участием знаменитостей и политиков). Результаты открытого челленджа будут объявлены в сентябре на конференции Interspeech 2019 в Граце, Австрия.