fbpx
  • Корелляция аудио и видео повысила точность распознавания эмоций в сложных условиях

    Ученые из Китая разработали алгоритм распознавания эмоций, который анализирует корреляции в выражении лица и спектрограмме речи. Распознавать эмоции сложно, потому что люди по разному их проявляют, например, из-за особенностей темперамента, но анализ звуковых паттернов способен улучшить результаты. Точность распознавания в сложных условиях достигла 62.48% и превзошла современные результаты на датасете Emotion Recognition in the Wild Challenge.

    Метод Deep Fusion

    Модель распознавания Deep Fusion, предложенная Юаньюань Чжан, Цзы Жуй Ван, Цзюнь Ду из Научно-технического университета Китая, содержит несколько компонентов. Сверточная нейронная сеть для распознавания эмоций по речи с механизмом внимания, которую ранее предложили авторы, выделяет области на спектрограмме, которые соответствуют проявлениям эмоциям. Механизм внимания реализован и для видео — нейронная сеть помечает кадры, которые отражают эмоциональное состояние. Видеокадры с лицами пропускаются через сеть распознавания лиц и три нейросети для распознавания эмоций. Авторы назвали свой метод сопоставления признаков видео и аудио Factorised Bilinear Pooling (FBP).

    deep fusion распознавание эмоций
    Схема работы Factorised Bilinear Pooling

    На последнем шаге извлекаются признаки проявления эмоций из видео и объединяются с признаками алгоритма распознавания речи, чтобы уловить корреляции между ними для окончательного предсказания эмоций.

    Предложенная архитектура
    Алгоритм работы FBP для распознавания эмоций

    Результаты

    Для обучения модели команда использовала 653 видео из набора AFEW8.0, который содержит записи фильмов и телевизионных шоу. В результате алгоритм научился классифицировать 7 видов эмоций: злость, отвращение, страх, счастье, спокойствие, грусть, удивление. Сеть показала точность распознавания 62,48% на проверочном наборе из 383 образцов.

    сравнение метода распознавания эмоций Deep Fusion
    Сравнение с другими методами

    Модель лучше распознавала эмоции, которые имеют очевидные характеристики, например злость, счастье и спокойствие. Отвращение и удивление распознавалось сложнее, так как их можно легко спутать с другими эмоциями. В тоже время отличительная особенность разработки в том, что модель учитывала связь между речью и выражением лица при распознавании. Результаты все еще далеки от идеала.