fbpx
  • Нейросеть разделяет голоса спикеров на аудиозаписи

    Cone of Silence — это нейросетевая модель, которая разделяет спикеров на аудиозаписи, записанной с нескольких микрофонов. Модель выдает аудиодорожку с речью спикера и предсказывает расположение спикера относительно микрофонов. Нейросеть справляется с аудиозаписями, где спикеры говорят одновременно и перебивают друг друга.

    Нейросеть изолирует источники звука для отдельного угла. Экспоненциально уменьшая угол, модель локализует и разделяет источники звука за логарифмическое время. Алгоритм работает на аудиозаписях с любым числом передвигающихся спикеров. По результатам экспериментов, модель выдает state-of-the-art результаты и на задаче локализации источника шума, и на задаче разделения спикеров.

    Визуализация работы нейросети

    Подробнее про работу модели

    На первом этапе алгоритм делит аудиозапись на регионы в 90 градусов. Части аудиозаписи без звука не учитываются. Алгоритм продолжает делить аудиозапись на меньшие части, пока не достигнет итогового шага, где регион охватывает 2 градуса.

    Составные части модели

    Тестирование работы нейросети

    Работу модели сравнивали с state-of-the-art подходами. Ниже видно, что предложенная архитектура обходит предыдущие модели, основанные на данных звуковых волн и на спектрограммах.

    Сравнение предложенной модели с state-of-the-art подходами