Генерация аудио / Нейросети и глубокое обучение

daVinci-MagiHuman: открытая 15B-модель генерирует 5-секундное видео с липсинком за 2 секунды на одном H100

24 марта 2026

daVinci-MagiHuman: открытая 15B-модель генерирует 5-секундное видео с липсинком за 2 секунды на одном H100

Команды SII-GAIR и Sand.ai опубликовали daVinci-MagiHuman — открытую мультимодальную 15B-модель на основе однопоточного трансформера, которая одновременно генерирует видео с липсинком и синхронное аудио и создает 5-секундный клип в 256p за…

EzAudio: гиперреалистичная открытая Text-to-Audio модель

19 сентября 2024

ezaudio text-to-audio model generation ai

EzAudio: гиперреалистичная открытая Text-to-Audio модель

EzAudio — новая диффузная модель генерации аудио на основе текста (T2A), разработанная исследователями из Tencent AI Lab и Университета Джонса Хопкинса. В основе модели — архитектура диффузионного трансформера для обработки…

DurIAN: нейросеть генерирует видео и аудио к тексту

11 сентября 2019

DurIAN: нейросеть генерирует видео и аудио к тексту

DurIAN — это нейросеть, которая получает на вход текст и одновременно генерирует речь и видео к тексту. Внутри DurIAN авторегрессионная модель, которая соотносит текст с выходной аудиозаписью. DurIAN более устойчива…

В Google Lens теперь можно прослушивать текст с изображения

6 сентября 2019

В Google Lens теперь можно прослушивать текст с изображения

В приложении Google Lens теперь есть функция прослушивания и перевода текста с изображения. Система сначала распознает куски текста на изображении, формирует структурированный текст из кусков, переводит текст и озвучивает перевод.…

MelNet: нейросеть генерирует аудиозаписи с голосами публичных личностей

14 июня 2019

MelNet: нейросеть генерирует аудиозаписи с голосами публичных личностей

Исследователи из Facebook AI опубликовали нейросеть, которая генерирует аудиозаписи с голосами публичных личностей. Примеры сгенерированных аудиозаписей находятся по ссылке. Представление аудиосигнала Сигнал имеет эквивалентные представления: в зависимости от изменений во…