fbpx
  • Jukebox: нейросеть от OpenAI генерирует песни

    Jukebox — это нейросетевая модель от OpenAI, которая генерирует песни. Модель принимает на вход жанр, артиста и текст песни. На выходе нейросеть отдает аудиозапись с сгенерированной песней. Примеры сгенерированных аудио доступны по ссылке.

    Что внутри модели

    Автоэнкодер в Jukebox сжимает аудиозапись в дискретное пространство с помощью VQ-VAE модели. VQ-VAE основана на квантизации. Иерархическая VQ-VAE может генерировать короткие инструментальные куски аудио из небольшого набора инструментов. Jukebox в основе имеет архитектуру, которая схожа с VQ-VAE-2. 

    Исследователи используют три уровня в VQ-VAE, которые сжимают аудиозапись в 8, 32 и 128 раз соответственно. Такой даунсемплинг теряет большую часть деталей аудио, но сохраняет базовую информацию о тоне, тембре и громкости аудио.

    Подход состоит из двух этапов:

    • Каждый уровень VQ-VAE независимо кодирует входную аудиозапись;
    • Чтобы сгенерировать новые песни, набор трансформеров генерирует кода с верхнего по нижний уровни. Затем нижний декодер конвертирует их в итоговую аудиозапись

    Данные для обучения

    Модель обучали на собранном в сети датасете из 1.2 миллионов песен. Половина из них на английском языке. Для каждой аудиозаписи доступны метаданные и текст песни из LyricWiki. Метаданные включают в себя артиста, жанр, год публикации песни и ключевые слова настроения песни.