Google Assistant научился распознавать музыку с помощью сверточной нейросети

В 2017 Google представила функцию для распознавания музыки Now Playing для смартфона Pixel 2. Теперь компания усовершенствовала разработку используя глубокое обучение и добавила её в Google Assistant в качестве инструмента Sound Search. Говорите «Окей, Google, какая это песня?», и получаете ответ меньше чем за 10 секунд.

В основе технологии свёрточная нейросеть, которая создаёт «отпечаток» песни и ищет его соответствие в базе данных. Sound Search работает быстрее и находит больше музыки, чем Now Playing, потому что операции осуществляются в облаке — инструмент не сталкивается с ограничениями при обработке и хранении данных. Это также позволило увеличить базу данных песен в 1000 раз.

Для поиска соответствия Google использует алгоритм с двумя фазами. Сначала быстрый, но неточный алгоритм анализирует всю базу данных, чтобы найти несколько похожих на фрагмент песен. Затем проводится детальный анализ каждого из подходящих треков для поиска максимального соответствия.

Google увеличили размерность эмбеддинга с 96 до 128, уменьшив объем работы, которую нейронная сеть должна делать, чтобы обработать входные данные. Качество распознавания при этом не ухудшается, но второй этап обработки проходит быстрее. Также разработчики увеличили плотность эмбеддингов: нейросеть создает уникальный отпечаток аудиоданных каждые пол секунды вместо одной секунды. Это удвоило количество эмбеддингов, которые можно использовать, чтобы найти участок записи.

Функция доступна для смартфонов на Android. Подробнее о разработке в блоге Google.