Нейросеть от Google AI различает спикеров на аудиозаписи

Разработчики в Google AI опубликовали нейросетевую модель, которая распознает спикеров на аудиозаписи. Нейросеть была протестирована на задаче распознавания аудиозаписей медицинских обследований. В сравнении с state-of-the-art моделью предложенный подход сокращает процент ошибок с 15.8% до 2.2%.

Задача распознавания разных голосов на аудиозаписи называется speaker diarization (SD). Решение этой задачи значительно может значительно повлиять на качество и последовательность виртуальных ассистентов и на приложения задачи преобразования из аудио в текст.

Стандартно модели, которые решают SD задачу, делятся на два этапа. Первый этап — распознавание момента смены спикера в аудиозаписи. Второй — идентификация уникальных спикеров в аудиозаписи. Базовый многошаговый подход был разработан более двух десятков лет назад. За это время улучшилось качество предсказания только у модели на первом шаге.

С разработкой рекуррентного нейросетевого датчика (RNN-T) появилась устойчивая архитектура, которую можно применить для задачи распознавания спикеров. RNN-T решает проблему с ограничениями базового подхода. В работе исследователи адаптировали стандартную RNN-T под задачу распознавания спикеров.

Как это работает

Нейросеть комбинирует в себе распознавание звуковых и языковых сигналов. Это позволяет распознавать текст речи и принадлежность речи в одной системе. Модель основана на RNN-T.

RNN-T архитектура делится на три разные нейросети:

кодировщик, который соотносит части аудиозаписи с скрытыми представлениями;
предсказатель, который предсказывает следующее слово, имея информацию о предыдущих предсказаниях;
совместная нейросеть, которая комбинирует выходы из предыдущих двух нейросетей и для каждой части аудио генерирует вероятностное распределение из существующих классов