Нейросеть от Google AI распознает песню на основе напевки

В Google AI обучили нейросеть, которая распознает песни на основе напевания. Нейросеть используется в сервисе Hum в Google Поиске.

Сервис Hum в Google Поиске

В октябре в Поиске открыли пользователям возможность искать песню по напевке. Сервис полностью работает с помощью модели машинного обучения. В отличие от существующих методов, подход получает эмбеддинг мелодии напрямую из спектрограммы песни без промежуточных представлений. Это позволяет модель сопоставлять напетую мелодию напрямую с оригинальной полифонической записью без необходимости хранить напетую или MIDI версию каждой песни. Такая архитектура модели упрощает базу данных сервиса.

В чем проблема

Большинство существующих систем по распознаванию музыки конвертируют аудио в спектрограмму до последующей обработки и поиска соответствия. Однако сложность распознавания напетой мелодии заключается в том, что напетый мотив часть содержит мало информации.

Подробнее про подход

Исследователи модифицировали существующие модели по распознаванию песен из Now Playing и Sound Search сервисов таким образом, что бы они работали на напетых мелодиях. Нейросеть в Hum обучает на парах напетой и оригинальной версий треков эмбеддинги. Обученные эмбеддинги затем используются для соотнесения оригинальной версии с напетой.

Визуализация составных частей подхода

Обучали нейросеть на аудиозаписях спетых песен и песен, которые мычали. Аудиозаписи мычания получали с помощью SPICE и существующего датасета со спетыми песнями. 

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt