fbpx
  • Нейросеть от Google AI распознает песню на основе напевки

    В Google AI обучили нейросеть, которая распознает песни на основе напевания. Нейросеть используется в сервисе Hum в Google Поиске.

    Сервис Hum в Google Поиске

    В октябре в Поиске открыли пользователям возможность искать песню по напевке. Сервис полностью работает с помощью модели машинного обучения. В отличие от существующих методов, подход получает эмбеддинг мелодии напрямую из спектрограммы песни без промежуточных представлений. Это позволяет модель сопоставлять напетую мелодию напрямую с оригинальной полифонической записью без необходимости хранить напетую или MIDI версию каждой песни. Такая архитектура модели упрощает базу данных сервиса.

    В чем проблема

    Большинство существующих систем по распознаванию музыки конвертируют аудио в спектрограмму до последующей обработки и поиска соответствия. Однако сложность распознавания напетой мелодии заключается в том, что напетый мотив часть содержит мало информации.

    Подробнее про подход

    Исследователи модифицировали существующие модели по распознаванию песен из Now Playing и Sound Search сервисов таким образом, что бы они работали на напетых мелодиях. Нейросеть в Hum обучает на парах напетой и оригинальной версий треков эмбеддинги. Обученные эмбеддинги затем используются для соотнесения оригинальной версии с напетой.

    Визуализация составных частей подхода

    Обучали нейросеть на аудиозаписях спетых песен и песен, которые мычали. Аудиозаписи мычания получали с помощью SPICE и существующего датасета со спетыми песнями.