В Google AI обучили нейросеть, которая распознает песни на основе напевания. Нейросеть используется в сервисе Hum в Google Поиске.
Сервис Hum в Google Поиске
В октябре в Поиске открыли пользователям возможность искать песню по напевке. Сервис полностью работает с помощью модели машинного обучения. В отличие от существующих методов, подход получает эмбеддинг мелодии напрямую из спектрограммы песни без промежуточных представлений. Это позволяет модель сопоставлять напетую мелодию напрямую с оригинальной полифонической записью без необходимости хранить напетую или MIDI версию каждой песни. Такая архитектура модели упрощает базу данных сервиса.
В чем проблема
Большинство существующих систем по распознаванию музыки конвертируют аудио в спектрограмму до последующей обработки и поиска соответствия. Однако сложность распознавания напетой мелодии заключается в том, что напетый мотив часть содержит мало информации.
Подробнее про подход
Исследователи модифицировали существующие модели по распознаванию песен из Now Playing и Sound Search сервисов таким образом, что бы они работали на напетых мелодиях. Нейросеть в Hum обучает на парах напетой и оригинальной версий треков эмбеддинги. Обученные эмбеддинги затем используются для соотнесения оригинальной версии с напетой.
Обучали нейросеть на аудиозаписях спетых песен и песен, которые мычали. Аудиозаписи мычания получали с помощью SPICE и существующего датасета со спетыми песнями.
Генерируйте видео, изображения и аватары с помощью сервиса FabulaAI. Получите 10 бесплатных генераций сразу после регистрации!