В статье приводится обзор датасетов с музыкальными произведениями. Датасеты разработаны для обучения моделей генерации, распознавания и анализа музыки.
NSynth
Крупнейший датасет, состоящий из 305 979 музыкальных нот, включая высоту звука, тембр и огибающую. Датасет включает записи 1006 музыкальных инструментов из коммерческих библиотек образцов и аннотированы на основе используемых инструментов (акустических, электронных или синтетических) и звуковых параметре. В датасете присутствуют такие инструменты, как флейта, гитара, фортепиано, орган и другие.
https://magenta.tensorflow.org/datasets/nsynth
MAESTRO
MAESTRO (MIDI and Audio Edited for Synchronous Tracks and Organisation) содержит более 200 часов аннотированных записей международных конкурсов пианистов за последние десять лет.
https://magenta.tensorflow.org/datasets/maestro
URMP
URMP — датасет для аудиовизуального анализа музыкальных выступлений. Датасет содержит несколько аннотированных музыкальных произведений с несколькими инструментами, собранных из отдельно записанных исполнений отдельных треков.
http://www2.ece.rochester.edu/projects/air/projects/URMP.html
Lakh MIDI v0.1
Датасет содержит 176 581 уникальный MIDI-файл, 45 129 из которых сопоставлены образцам из Million Song Dataset. Датасет нацелен на облегчение крупномасштабного поиска музыкальной информации на основе текста и аудиоконтента.
https://colinraffel.com/projects/lmd/
Music21
Music21 содержит музыкальные выступления из 21 категории и нацелен на решение исследовательских задач (например, поиска ответа на вопрос :»Какая группа использовала данные аккорды впервые?»)
Больше датасетов доступно по ссылке.