Исследователи из Google AI собрали датасет из тысяч сгенерированных фраз 68 голосами. Набор данных сейчас доступен только для участников челленджа ASVspoof 2019. На конкурсе (регистрация открыта до 8 февраля) разработчики должны будут создать алгоритмы, которые различают реальные и синтезированные голоса и определяют поддельную речь в аудио- и видеозаписях.
«За последние несколько лет произошел взрыв новых разработок с использованием нейронных сетей для имитации человеческого голоса. Многие модели, в том числе разработанные в Google, генерируют реалистичную речь, практически не отличимую от человеческой. Несмотря на то что прогресс впечатляет, мы хорошо осознаем риски использования подобных технологий во вред» — написали разработчики в блоге Google AI.
Команда Google News Initiative совместно с Google AI представила датасет из тысяч фраз на английском языке, взятых из газетных статей. Они прочитаны 68 синтетически сгенерированными голосами с разными региональными акцентами. Голоса созданы с использованием технологии синтеза речи из печатного текста (text-to-speech).
Применение синтезированных голосов
Подобные разработки применяются для создания голосовых помощников. Ученые берут некоторый текст, зачитанный человеком и вычленяют из него выборку фонем для синтеза голоса модели. С помощью такого подхода генерируется устный перевод в Google Translate и переводчике Яндекса, инструкции Google Maps, речь Алисы и создаются продукты, которые помогают слабовидящим пользователям ориентироваться в интернете.
Конкурс Automatic Speaker Verification создан с целью сделать системы автоматической голосовой верификации пользователя более безопасными. Подобные конкурсы являются также одним из способов борьбы с deepfakes (поддельными видео с участием знаменитостей и политиков). Результаты открытого челленджа будут объявлены в сентябре на конференции Interspeech 2019 в Граце, Австрия.