F2ED — это датасет с размеченными изображениями человеческих лиц. Датасет предназначен для решения задачи end-to-end распознавания эмоций по данным с камер слежения. Данные собирались исследователями из Fudan University и Ping An OneConnect. Для аугментации изображений лиц людей в разных позах исследователи разработали FaPE-GAN.
Распознавание эмоций на лице (Facial Expression Recognition) используется в таких сферах, как психология, медицина, безопасность и образования.
Сбор данных
Чтобы разработать систему по распознаванию эмоций, исследователи собрали F2ED. Датасет состоит из 200 тысяч изображений 119 людей в 4-х разных позах и с 54 эмоциями на лице. Исследователи также использовали техники аугментации данных, чтобы увеличить размер данных. Для аугментации использовалась генеративная нейросеть — facial pose generative adversarial network (FaPE-GAN). FaPE-GAN генерировала дополнительные изображения лиц людей в разных позах. Эти дополнительные изображения добавлялись в обучающую выборку.
Чтобы собрать изображения людей, исследователи пригласили добровольцев в комнату, заполненную видеокамерами, на полчаса. Доброволец общался с двумя психологами-экспертами, пока находился в комнате. После этого три психолога просматривали видеозапись и размечали эмоции на лице добровольца. Датасет включает в себя только те видеозаписи, где все три психолога не имели разногласий по разметке. Каждый участник снимался с четырех разных сторон: анфас, слева, справа и сверху.
54 эмоции
Психологи-эксперты разметили 54 различных выражения на лице. Эти выражения были связаны с эмоциями. Эти выражения включают в себя скуку, страх, оптимистичность, агрессивность, неодобрение и подобное.
Что внутри FaPE-GAN
Фреймворк состоит из компонентов FaPE-GAN и нейросети для классификации лиц (Fa-Net). Первая отвечает за генерацию изображений, а последняя — за классификацию.
FaPE-GAN, как и стандартная генеративная нейросеть, обучается с помощью реальных изображений лиц и синтезированных. Модуль дискриминатора отвечает за улучшение достоверности синтезируемых изображений.
Fa-Net может применяться для обучения с подкреплением и без и для zero-shot обучения. В основе Fa-Net лежит архитектура LightCNN.
4 задачи
Исследователи предлагают решить 4 задачи, решение которых поможет в разработке более эффективных систем по распознаванию лиц.
- Распознавание выражений с сбалансированным окружением (ER-SS);
- Несбалансированные выражения, где 20% данных — это выражения на лице, которые принадлежат к редким категориям (ER-UE);
- Несбалансированные позы, где изображения лиц слева представлены реже, чем остальные (ER-UP);
- Zero-shot идентификация, где необходимо распознать эмоции людей, не представленных в обучающей выборке (ER-ZID)