Корелляция аудио и видео повысила точность распознавания эмоций в сложных условиях

Ученые из Китая разработали алгоритм распознавания эмоций, который анализирует корреляции в выражении лица и спектрограмме речи. Распознавать эмоции сложно, потому что люди по разному их проявляют, например, из-за особенностей темперамента, но анализ звуковых паттернов способен улучшить результаты. Точность распознавания в сложных условиях достигла 62.48% и превзошла современные результаты на датасете Emotion Recognition in the Wild Challenge.

Метод Deep Fusion

Модель распознавания Deep Fusion, предложенная Юаньюань Чжан, Цзы Жуй Ван, Цзюнь Ду из Научно-технического университета Китая, содержит несколько компонентов. Сверточная нейронная сеть для распознавания эмоций по речи с механизмом внимания, которую ранее предложили авторы, выделяет области на спектрограмме, которые соответствуют проявлениям эмоциям. Механизм внимания реализован и для видео — нейронная сеть помечает кадры, которые отражают эмоциональное состояние. Видеокадры с лицами пропускаются через сеть распознавания лиц и три нейросети для распознавания эмоций. Авторы назвали свой метод сопоставления признаков видео и аудио Factorised Bilinear Pooling (FBP).

deep fusion распознавание эмоций
Схема работы Factorised Bilinear Pooling

На последнем шаге извлекаются признаки проявления эмоций из видео и объединяются с признаками алгоритма распознавания речи, чтобы уловить корреляции между ними для окончательного предсказания эмоций.

Предложенная архитектура
Алгоритм работы FBP для распознавания эмоций

Результаты

Для обучения модели команда использовала 653 видео из набора AFEW8.0, который содержит записи фильмов и телевизионных шоу. В результате алгоритм научился классифицировать 7 видов эмоций: злость, отвращение, страх, счастье, спокойствие, грусть, удивление. Сеть показала точность распознавания 62,48% на проверочном наборе из 383 образцов.

сравнение метода распознавания эмоций Deep Fusion
Сравнение с другими методами

Модель лучше распознавала эмоции, которые имеют очевидные характеристики, например злость, счастье и спокойствие. Отвращение и удивление распознавалось сложнее, так как их можно легко спутать с другими эмоциями. В тоже время отличительная особенность разработки в том, что модель учитывала связь между речью и выражением лица при распознавании. Результаты все еще далеки от идеала.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt