fbpx
  • Amazon Alexa распознает эмоции по голосу с помощью нейросетей

    Разработчики из Alexa Research в Amazon опубликовали описание модели, которая распознает эмоции по интонации голоса человека. В качестве модели разработчики использовали автокодировщик, который позволяет обучаться на неразмеченных данных.

    Обычно классификация эмоций производится с помощью нейросети, которую обучили с учителем на размеченных данных. Нейросеть учится предсказывать класс на основе тех данных в обучающей выборке, которые приписаны к данному классу. Предложенная модель использует состязазательное обучение и состоит из кодировщика-декодировщика.

    Архитектура автокодировщика

    Процесс обучения делится на три этапа:

    1. Сначала кодировщик и декодировщик обучаются на неразмеченных данных;
    2. Используется состязательное обучение (дискриминатор), чтобы улучшить точность кодировщика;
    3. Кодировщик затачивается под задачу перевода из представления эмоции в класс эмоции
    Визуализация архитектуры автоэнкодера

    Скрытое представление данных делится на тип эмоции и стиль. Эти данные поступают в два состязательных дискриминатора. Дискриминатор — это нейросеть, которая учится отличать реальные данные из кодировщика от сгенерированных.

    Модель обучалась на публичном датасете, который содержит 10,000 высказываний от 10 разных спикеров. Эти высказывания размечены в соответствии с характеристиками интонации: валентность, активация и доминация:

    • Валентность, которая отвечает за позитивность/негативность эмоции говорящего;
    • Активация, которая отвечает за то, вовлечен ли говорящий в разговор или пассивен;
    • Доминация, которая отвечает за то, контролирует свою речь говорящий или нет

    Исследователи отметили трюки, которые помогли успешно обучить автокодировщик:

    Оценка работы модели

    Разработчики сравнили работу модели с конвенциональными методами обучения с учителем. Предложенный подход был на 3% более точный в определении валентности, чем конвенциональный подход.

    Отдельно рассматривался случай, когда на вход нейросети поступала последовательность векторов, описывающих аудио характеристики двадцатисекундных нарезок. Нейросеть давала прирост в точности 4%.