В своих выступлениях диджеи часто разделяют плэйлисты по настроению (агрессивная, душевная, меланхоличная музыка) и темпу (медленный, средний и быстрый битрейт), а не по музыкальному жанру. Опытные диджеи делают переход между двумя треками (сведение) незаметным, что заставляет микс звучать как единое целое.
Но иногда возникают сложности. Так плэйлист, состоящий из треков в жанрах техно, электро и IDM, отражающий настроение или эмоции — не просто набор треков в стиле техно, который намного проще свести.
Недавние работы в области глубокого обучения обнаружили методы решения проблемы плавного перехода между треками. Tijn Borghuis и коллеги предлагают генеративный подход для создания ритмического шаблона (барабанного бита), который нужен для непрерывного перехода между треками.
Архитектура сети
Метод основан на глубоком обучении и использует вариационные автоэнкодеры (Variational Autoencoder — VAE) и интерполяцию в неизвестную область. Представление музыкальных данных, архитектура сети, а также способ интерполяции и сам метод описаны ниже.
Для использования метода авторы создали датасет ритмических рисунков трёх популярных электронных направлений: электро-фанк, техно и интеллектуальной танцевальной музыки (IDM), который содержит 1–1.5 часа записи для каждого из жанров. Датасет состоит из 1782 ритмических рисунков. Каждый шаблон представлен как двумерный массив, ось Y которого содержит 6 ударных инструментов, а ось X — время. Размер массива — 6х64 элемента, так как все рисунки имеют длину 64.
Суть предлагаемого метода в следующем: два ритмических шаблона (каждый представлен как 6х64 массив) кодируются с использованием обученной VAE модели, а затем производится интерполяция между закодированными представлениями этих двух шаблонов. После этого оба шаблона декодируются и на выходе получаем плавный переход между ними.
Идея в том, что интерполяция в неизвестную область между шаблонами даёт лучшие результаты, чем интерполяция внутри шаблонов. Возникает вопрос: всегда ли это верно? Оказывается, да. Ответ кроется в теории глубокого обучения. Интерполяция в неизвестную область работает лучше из-за нелинейного отображения входных данных в неизвестную область и из неизвестной области на выход системы. В рамках работы генерация взвешенного среднего двух шаблонов даёт перекрёстное затухание (плавное уменьшение громкости одного трека и одновременное увеличение громкости другого). В сущности, данный подход является интерполяцией в закодированном пространстве, т.е. просто линейной комбинацией двух закодированных шаблонов.
Вариационный автоэнкодер, описанный в статье, состоит из трёх частей: входного слоя, рекуррентных слоёв — двунаправленных LSTM слоёв с нелинейностью гиперболического тангенса, и полностью соединённых слоёв, которые переводят входные данные в скрытое пространство — вектор из 4-х элементов. В свою очередь, декодер состоит только из полностью соединённых слоёв, выдающих структуру того же размера (6х64). За слоями декодера следует ReLU нелинейная активация.
Архитектура нейросети доказала работоспособность в задачах создания новых музыкальных шаблонов, используемых для плавного перехода между треками или для автономного воспроизведения барабанных партий.
С целью понять, насколько оригинальны генерируемые шаблоны, авторы провели интересный эксперимент, выполнив Анализ Главных Компонентов (Principal Component Analysis — PCA) тренировочных и генерируемых шаблонов посредством интерполяции.
Авторы визуализировали оба типа шаблонов в пространстве первых двух главных компонент (которые хранят большое количество деталей).
Оказалось, что интерполяционные кривые (цветные линии на графике) следуют по точкам тренировочных шаблонов, проходя при этом и по новым точках. Эти точки принадлежат генерируемым шаблонам, которые действительно оказываются оригинальными.
В сухом остатке
Авторы статьи показали, что глубокое обучение и в особенности генеративные модели имеют огромный потенциал в музыкальной сфере. С помощью экспериментов они доказывают, что их метод, так же как и глубокое обучение в целом, может эффективно применяться при создании музыкальных шаблонов. Более того, метод позволяет создавать плавный переход между песнями, даже если они относятся к разным жанрам.
Генерируемые шаблоны оригинальны и звучат гармонично. Поэтому, учитывая скорость развития искусственного интеллекта, можно ожидать, что в ближайшем будущем мы будем иметь возможность создавать музыку без участия человека вообще, и при этом не однообразную, как “роботы Spotify”.
Перевел Борис Румянцев, оригинал — Dane Mitriev