Генерация речи / Нейросети и глубокое обучение

NVIDIA Canary достигла 90% точности предсказания временных меток в синхронном переводе

28 мая 2025

NVIDIA Canary достигла 90% точности предсказания временных меток в синхронном переводе

Исследовательская команда NVIDIA представила подход для генерации временных меток на уровне слов в модели синхронного перевода Canary. Точная информация о времени критически важна для создания синхронизированных субтитров. Исследователи опубликовали код…

Mini-Omni: первая открытая speech-to-speech модель, ведущая диалог без задержки

2 сентября 2024

Mini-Omni: первая открытая speech-to-speech модель, ведущая диалог без задержки

Mini-Omni — первая open source языковая модель, позволяющая вести диалог голосом с минимальной задержкой ответа и без использования внешних text-to-speech моделей. Метод Any Model Can Talk позволяет интегрировать речевые возможности…

Джо Роган «взял интервью» у Стива Джобса на сервисе podcast.ai

12 октября 2022

Джо Роган «взял интервью» у Стива Джобса на сервисе podcast.ai

На сервисе podcast.ai вышло 20-минутное интервью со сгенерированными голосами Стива Джобса и Джо Рогана. Интервью было создано с использованием GPT-3 и генератора речи на основе текста, а воссозданный голос Джобса…

Нейросеть генерирует аудиозапись с пением на основе обычного голоса

30 декабря 2019

Нейросеть генерирует аудиозапись с пением на основе обычного голоса

В Tencent AI разработали нейросетевой алгоритм для генерации аудиозаписи с пением человека на основе его обычного голоса. Алгоритм основывается на архитектуре DurIAN. Примеры сгенерированных аудиозаписей доступны по ссылке. Предложенный алгоритм…

Как генерировать правдоподобную речь с помощью нейросетей

1 октября 2019

Как генерировать правдоподобную речь с помощью нейросетей

GAN-TTS — это генеративная модель для задачи преобразования текста в речь. Архитектура модели состоит из условного feed-forward генератора и ансамбля дискриминаторов. Дискриминаторы оценивают сгенерированную аудиозапись на случайных окнах разного размера.…

Нейросеть учится восстанавливать речь из мозговой активности

31 января 2019

Нейросеть учится транслировать мозговую активность в понятную речь

Нейросеть учится восстанавливать речь из мозговой активности

Импланты в мозге, нейронные сети и синтезатор голоса превратили мозговую активность человека в членораздельную речь. Люди, которые услышали её, смогли распознать слова в 75% случаев. Вокодер (кодировщик голоса) пока воспроизвел…