fbpx
  • Нейросеть 2.5D Visual Sound превращает моно звучание в бинауральное при просмотре видео

    2.5d visual sound

    Рухан Гао из Техасского университета и Кристен Грауман из Facebook разработали метод преобразования монофонического звука в бинауральный при наличии одноканальной записи и видеоряда. Алгоритм назвали 2.5D Visual Sound, он работает на основе сверточных нейронных сетей.

    «Бинауральная запись (лат. bi — два + auris — ухо) — метод звуковой записи, при котором используется специальное расположение микрофонов, предназначенное для последующего прослушивания через наушники» — Википедия.

    Посмотрите видео с результатами экспериментов, опубликованное разработчиками. В нём наглядно показано различие между монофонической и бинауральной записью:

    Алгоритм работы 2.5D Visual Sound

    Метод 2.5D Visual Sound основан на сверточных нейросетях U-Net и ResNet. Алгоритм определяет, в каком направлении идет звук, используя визуальные признаки. Сначала нейросеть сопоставляет сцену на видеозаписи со звуком, чтобы понять откуда он идет, а затем искажает скорость, уровни и объем, создавая бинауральный эффект для слушателя.

    бинауральная запись
    Архитектура сети 2.5d visual sound

    Для обучения сети разработчики записали 2265 музыкальных видео, общая длительность которых составила 6 часов. Создать эффект бинауральной записи на обучающих видео помогли бинауральные микрофоны, которые имитируют устройство человеческих ушей.

    записи бинауральной музыки и видео

    Пока нейросеть не умеет работать с источниками звука, которые не видны на видео. Но исследователи научили алгоритм разделять визуальные- и аудио-потоки на видеозаписях, например, звуки музыкальных инструментов. 

    Похожей разработкой занималась команда исследователей MIT-IBM Watson AI Lab и Колумбийского университета. Они предложили метод, который позволяет находить области изображения, из которых «исходят» звуки, и разделять их на набор компонент, которые создаются в разных пикселях изображения.