Voice Engine: синтез голоса от OpenAI

OpenAI представила Voice Engine — модель, выполняющую клонирование голоса по 15-секундной аудиозаписи. В компании среди пользователей модели указывают подкастеров, дикторов, авторов аудиокниг и рекламных роликов, стримеров и другие профессии.

На текущий момент технология доступна только для небольшой группы партнеров компании. Например, образовательныей стартап Age of Learning использует Voice Engine и GPT-4 для создания персонализированного голосового контента по заранее написанному сценарию в режиме реального времени, расширяя возможности чтения и интерактивности для разнообразной студенческой аудитории.

OpenAI также подчеркивает возможность голосового движка предлагать поддержку людям, не владеющим речью, предоставляя им уникальные, не роботизированные голоса, а также помощь в терапевтических и образовательных программах для людей с нарушениями речи или нуждающихся в обучении. В Институте неврологии Нормана Принса с помощью модели была восстановлена речь пациентки с опухолью головного мозга на основе видеозаписи из одного из видеороликов ее школьного проекта.

Для защиты от мошенничества OpenAI внедрила меры безопасности, включая нанесение водяных знаков на аудиодорожку. Модель находится в разработке с 2022 года и в настоящее время поддерживает API преобразования текста в речь OpenAI и новые функции голосового управления ChatGPT и чтения вслух, представленные в 2024-м году.

Прослушать примеры синтезированных голосов можно по ссылке.