fbpx
  • В Amazon обучили нейросеть, которая улучшает работу Alexa на 15%

    обучение amazon alexa

    Исследователи Amazon опубликовали архитектуру нейросети, которая чистит аудиозапись от фонового шума. Это поможет голосовому помощнику Alexa не воспринимать речь, которая не была ей адресована, и оптимизирует работу продукта на 15%.

    Описание работы модели

    Работа нейросети основывается на предположении, что Alexa должна слушать того, кто ее вызывает. Чтобы вызвать помощника, обычно достаточно проговорить “Alexa”. Исследователи предлагают модель, которая сравнивает голос того, кто вызвал Alexa, с остальными шумами на аудиозаписи и чистит аудиозапись от нерелеватного шума.

    Архитектура нейросети

    Вместо того чтобы тренировать новую сеть, которая бы чистила данные от шума, исследователи модифицируют существующую систему распознавания речи. Они добавляют к нейросети механизм распознавания голоса пользователя, который стартовал Alexa.

    Энкодер существующей модели состоит из 3-х конволюционных слоев и 3-х двунаправленных LSTM. Он принимает на вход миллисекундные аудиосигналы. Выход энкодера поступает в механизм внимания, а затем в декодер. Декодер же состоит из 3-х унинаправленных LSTM. На выходе генерируется текст запроса пользователя Alexa.

    Архитектура существующей модели распознавания речи

    Исследователи предложили две различные модификации базовой модели:

    1. Multi-Source Attention модель: добавляют в механизм внимания дополнительный входной элемент — сырые аудиоданные того, как вызывалась Alexa;
    2. Mask-Based модель: сначала вся запись сравнивается с той частью, когда вызывалась Alexa, результат этого этапа проходит через механизм, скрывающий часть аудиозаписи, а затем урезанный аудиосигнал поступает в механизм внимания.

    В обоих случаях сеть выучивается отличать голос пользователя, который вызвал помощника. Второй подход делает это более очевидно через вырезание части нерелевантных данных. Исследователи рассчитывали, что Mask-Based подход будет значительно эффективнее первого. Однако первый подход уменьшает ошибку помощника на 13%, а второй — на 15%.

    Результаты и направления будущих исследований

    Исследователи протестировали оба подхода в сравнении с базовой моделью на синтезированных данных. Основной метрикой для сравнения была WERR (Word Error Rate). С помощью Mask-based подхода удалось сократить ошибку на 15% на зашумленных данных, но результаты на чистых данных ухудшаются на 1.5%.

    Сравнение работы базовой модели и Multi-source attention модели