Amazon Alexa распознает эмоции по голосу с помощью нейросетей

Разработчики из Alexa Research в Amazon опубликовали описание модели, которая распознает эмоции по интонации голоса человека. В качестве модели разработчики использовали автокодировщик, который позволяет обучаться на неразмеченных данных.

Обычно классификация эмоций производится с помощью нейросети, которую обучили с учителем на размеченных данных. Нейросеть учится предсказывать класс на основе тех данных в обучающей выборке, которые приписаны к данному классу. Предложенная модель использует состязазательное обучение и состоит из кодировщика-декодировщика.

Архитектура автокодировщика

Процесс обучения делится на три этапа:

Сначала кодировщик и декодировщик обучаются на неразмеченных данных;
Используется состязательное обучение (дискриминатор), чтобы улучшить точность кодировщика;
Кодировщик затачивается под задачу перевода из представления эмоции в класс эмоции

Скрытое представление данных делится на тип эмоции и стиль. Эти данные поступают в два состязательных дискриминатора. Дискриминатор — это нейросеть, которая учится отличать реальные данные из кодировщика от сгенерированных.

Модель обучалась на публичном датасете, который содержит 10,000 высказываний от 10 разных спикеров. Эти высказывания размечены в соответствии с характеристиками интонации: валентность, активация и доминация:

Валентность, которая отвечает за позитивность/негативность эмоции говорящего;
Активация, которая отвечает за то, вовлечен ли говорящий в разговор или пассивен;
Доминация, которая отвечает за то, контролирует свою речь говорящий или нет

Исследователи отметили трюки, которые помогли успешно обучить автокодировщик:

Нормализация батчей;
Регуляризация для дискриминатора;
Установление дропаута 0.5 для слоев дискриминатора;
Learning rate генератора был выше, чем learning rate дискриминаторов

Оценка работы модели

Разработчики сравнили работу модели с конвенциональными методами обучения с учителем. Предложенный подход был на 3% более точный в определении валентности, чем конвенциональный подход.

Отдельно рассматривался случай, когда на вход нейросети поступала последовательность векторов, описывающих аудио характеристики двадцатисекундных нарезок. Нейросеть давала прирост в точности 4%.