fbpx
  • F2ED: датасет для распознавания эмоций на лице

    F2ED — это датасет с размеченными изображениями человеческих лиц. Датасет предназначен для решения задачи end-to-end распознавания эмоций по данным с камер слежения. Данные собирались исследователями из Fudan University и Ping An OneConnect. Для аугментации изображений лиц людей в разных позах исследователи разработали FaPE-GAN.

    Распознавание эмоций на лице (Facial Expression Recognition) используется в таких сферах, как психология, медицина, безопасность и образования.

    Сбор данных

    Чтобы разработать систему по распознаванию эмоций, исследователи собрали F2ED. Датасет состоит из 200 тысяч изображений 119 людей в 4-х разных позах и с 54 эмоциями на лице. Исследователи также использовали техники аугментации данных, чтобы увеличить размер данных. Для аугментации использовалась генеративная нейросеть — facial pose generative adversarial network (FaPE-GAN). FaPE-GAN генерировала дополнительные изображения лиц людей в разных позах. Эти дополнительные изображения добавлялись в обучающую выборку.

    Чтобы собрать изображения людей, исследователи пригласили добровольцев в комнату, заполненную видеокамерами, на полчаса. Доброволец общался с двумя психологами-экспертами, пока находился в комнате. После этого три психолога просматривали видеозапись и размечали эмоции на лице добровольца. Датасет включает в себя только те видеозаписи, где все три психолога не имели разногласий по разметке. Каждый участник снимался с четырех разных сторон: анфас, слева, справа и сверху.

    Распределение изображений с разных ракурсов

    54 эмоции

    Психологи-эксперты разметили 54 различных выражения на лице. Эти выражения были связаны с эмоциями. Эти выражения включают в себя скуку, страх, оптимистичность, агрессивность, неодобрение и подобное.

    Что внутри FaPE-GAN

    Фреймворк состоит из компонентов FaPE-GAN и нейросети для классификации лиц (Fa-Net). Первая отвечает за генерацию изображений, а последняя — за классификацию. 

    FaPE-GAN, как и стандартная генеративная нейросеть, обучается с помощью реальных изображений лиц и синтезированных. Модуль дискриминатора отвечает за улучшение достоверности синтезируемых изображений.

    Fa-Net может применяться для обучения с подкреплением и без и для zero-shot обучения. В основе Fa-Net лежит архитектура LightCNN.

    Компоненты нейросетевого фреймворка

    4 задачи

    Исследователи предлагают решить 4 задачи, решение которых поможет в разработке более эффективных систем по распознаванию лиц.

    1. Распознавание выражений с сбалансированным окружением (ER-SS);
    2. Несбалансированные выражения, где 20% данных — это выражения на лице, которые принадлежат к редким категориям (ER-UE);
    3. Несбалансированные позы, где изображения лиц слева представлены реже, чем остальные (ER-UP);
    4. Zero-shot идентификация, где необходимо распознать эмоции людей, не представленных в обучающей выборке (ER-ZID)