LipSync: веб-приложение от YouTube для соревнований по подпеванию

LipSync — это веб-приложение от YouTube, которое тестирует, как хорошо пользователь подпевает под песню. Система основывается на нейросети, которая распознает движения лица и губ во время подпевания и оценивает их с целевыми. На основе этой оценки пользователи получают скор качества их подпевания. Модель обучали с помощью TensorFlow.js.

TensorFlow.js и FaceMesh

Модель FaceMesh, которую построили в MediaPipe, предоставляет оценку ключевых точек выражения лица в реальном времени. Модель использует исключительно данные вебкамеры и работает на устройстве. Это обеспечивает безопасность использования приложений, которые основаны на FaceMesh. LipSync использует полученные из FaceMesh данные о точках вокруг рта и губ для оценки того, как синхронизовано пение пользователя с оригинальным текстом песни.

Проверка правильности

Чтобы оценить качество подпевания, система сравнивает разметку точек рта пользователя с канонической разметкой. Видео с подпеванием пользователя сравниваются с ранее записанным целевым видео.

Для сравнения форм рта в LipSync модели использует функция matchShapes из OpenCV. Это позволяет алгоритму корректно сравнивать пользовательское видео с целевым, даже если пользователь активно двигает головой.