Нейросетям пока сложно создавать длинные музыкальные произведения. Это связано со сложной структурой музыки: большинство мелодий содержат разные мотивы, паттерны и повторения, которые при этом связаны единой композицией. Разработчики Google Brain представили Music Transformer — нейронную сеть с механизмом внимания, которая способна генерировать музыку с более логичной структурой, узнаваемыми частями и повторениями.
Как работает Music Transformer
Music Transformer — нейросеть с механизмом внимания (attention-based neural network). Она использует представление на основе событий и технику относительного внимания (relative attention). Relative attention моделирует внимание в зависимости от того, насколько далеко друг от друга находятся два фрагмента. При этом сеть «уделяет внимание» повторяющимся музыкальным событиям и может генерировать длинные музыкальные последовательности. Подход relative self-attention позволяет модели обобщать сверх длины обучающих примеров.
Аккумулируя внимание как на повторящихся паттернах, так и на последней мелодии, нейросети удается создавать гармоничную музыку с относительно развитой композицией.
В отличие от предыдущей модели разработчиков, Performance RNN, которая основана на LTSM и сжимает более ранние события в скрытое представление фиксированного размера, новая модель имеет простую структуру энкодер-декодер и прямой доступ ко всем более ранним событиям. Это позволяет ей генерировать мелодию напрямую.
Послушайте мелодию, созданную Music Transformer:
Ограничения
Music Transformer пока далека от совершенства — иногда она создает музыку со странными переходами, большими паузами и слишком частыми повторениями. Команда полагает, что музыканты смогут использовать разработку в качестве креативного инструмента для изучения возможных продолжений мелодии.
Разработчики планируют в ближайшее время выпустить открытый код для тренировки модели и создания музыки. Больше примеров работы Music Transformer можно послушать здесь.