Генерация музыки / Нейросети и глубокое обучение

EzAudio: гиперреалистичная открытая Text-to-Audio модель

19 сентября 2024

ezaudio text-to-audio model generation ai

EzAudio: гиперреалистичная открытая Text-to-Audio модель

EzAudio — новая диффузная модель генерации аудио на основе текста (T2A), разработанная исследователями из Tencent AI Lab и Университета Джонса Хопкинса. В основе модели — архитектура диффузионного трансформера для обработки…

Stable Audio: нейросеть для генерации музыки и звуков из текста от Stability AI

14 сентября 2023

Stable Audio: нейросеть для генерации музыки и звуков из текста от Stability AI

Stability AI представила Stable Audio — нейросеть для генерации музыки и звуков по текстовой подсказке заданной пользователем длины. Stable Audio способна генерировать 95 секунд стереоаудио с частотой дискретизации 44,1 кГц…

Audiocraft: open source библиотека для генерации музыки и звуков

4 августа 2023

Audiocraft: open source библиотека для генерации музыки и звуков

Audiocraft — это PyTorch-библиотека с открытым исходным кодом для генерации музыки и звуков из текста, предназначенная для исследований в области генерации аудио с использованием глубокого обучения. Разработчики предоставили код двух…

В «последней песне» The Beatles появится сгенерированный нейросетью Джон Леннон

22 июня 2023

В «последней песне» The Beatles появится сгенерированный нейросетью Джон Леннон

80-летний Пол Маккартни объявил о релизе «последней песни» The Beatles, в которой голос Джона Леннона будет сгенерирован нейросетью. Голос Джона Леннона был обработан и сделан «чистым», что позволило собрать и…

MusicGen: open source нейросеть для создания музыки в любых жанрах

13 июня 2023

MusicGen: open source нейросеть для создания музыки в любых жанрах

MusicGen — нейросеть, создающая музыку по текстовому описанию и примеру мелодии, что дает более точный контроль над создаваемым выводом. Исследователи провели обширное эмпирическое исследование, чтобы доказать превосходство предложенного подхода по…

AudioGPT: модель генерации звука из текста на основе трансформеров

5 мая 2023

AudioGPT: модель генерации звука из текста на основе трансформеров

AudioGPT — text-to-speech и text-to-audio модель от OpenAI, основанная на серии языковых моделей GPT. AudioGPT способна генерировать аудио-сэмплы с естественно звучащей речью, музыку и выполнять задачи классификации. Модель может оказать…

Jukebox: нейросеть от OpenAI генерирует песни

1 мая 2020

Jukebox: нейросеть от OpenAI генерирует песни

Jukebox — это нейросеть от OpenAI, которая генерирует песни. Модель принимает на вход жанр, артиста и текст песни. На выходе нейросеть отдает аудиозапись с сгенерированной песней. Тысячи примеров сгенерированных песен…

SynVAE: нейросеть генерирует музыку из картины

13 сентября 2019

SynVAE: нейросеть генерирует музыку из картины

Synesthetic Variational Autoencoder (SynVAE) — это нейросеть, которая на основе изображения генерирует музыку. Модель обучалась unsupervised. SynVAE состоит из объединенных визуального VAE и MusicVAE. Изображение кодируется в музыку, а затем…

OpenAI создала нейросеть для генерации музыки MuseNet

27 апреля 2019

Open AI создали нейросеть MuseNet для генерации музыки

OpenAI создала нейросеть для генерации музыки MuseNet

Исследователи из Open AI представили нейросеть MuseNet, которая генерирует четырехминутные музыкальные композиции с использованием 10 разных инструментов. Модель может комбинировать музыку в разных стилях (от кантри до Моцарта). Нейросеть устроена…

Google Brain представили сеть Music Transformer для создания гармоничной музыки

18 декабря 2018

Google Brain представили сеть Music Transformer для создания гармоничной музыки

Нейросетям пока сложно создавать длинные музыкальные произведения. Это связано со сложной структурой музыки: большинство мелодий содержат разные мотивы, паттерны и повторения, которые при этом связаны единой композицией. Разработчики Google Brain…

Как работает вариационный автоэнкодер (VAE)

11 октября 2018

Как работает вариационный автоэнкодер (VAE)

Вариационный автоэнкодер (Variational Autoencoder – VAE) — генеративная модель, которая находит применение во многих областях исследований: от генерации новых человеческих лиц до создания полностью искусственной музыки, в противоположность использованию нейросетей…