EzAudio: гиперреалистичная открытая Text-to-Audio модель

19 сентября 2024
ezaudio text-to-audio model generation ai

EzAudio: гиперреалистичная открытая Text-to-Audio модель

EzAudio — новая диффузная модель генерации аудио на основе текста (T2A), разработанная исследователями из Tencent AI Lab и Университета Джонса Хопкинса. В основе модели — архитектура диффузионного трансформера для обработки…

DurIAN: нейросеть генерирует видео и аудио к тексту

11 сентября 2019

DurIAN: нейросеть генерирует видео и аудио к тексту

DurIAN — это нейросеть, которая получает на вход текст и одновременно генерирует речь и видео к тексту.  Внутри DurIAN авторегрессионная модель, которая соотносит текст с выходной аудиозаписью. DurIAN более устойчива…

В Google Lens теперь можно прослушивать текст с изображения

6 сентября 2019

В Google Lens теперь можно прослушивать текст с изображения

В приложении Google Lens теперь есть функция прослушивания и перевода текста с изображения. Система сначала распознает куски текста на изображении, формирует структурированный текст из кусков, переводит текст и озвучивает перевод.…

MelNet: нейросеть генерирует аудиозаписи с голосами публичных личностей

14 июня 2019

MelNet: нейросеть генерирует аудиозаписи с голосами публичных личностей

Исследователи из Facebook AI опубликовали нейросеть, которая генерирует аудиозаписи с голосами публичных личностей. Примеры сгенерированных аудиозаписей находятся по ссылке. Представление аудиосигнала Сигнал имеет эквивалентные представления: в зависимости от изменений во…