fbpx
  • Датасеты для распознавания лиц в сложных условиях — в масках, очках, с макияжем

    Датасеты для распознавания лиц в сложных условиях — в масках, очках, с макияжем, в старости

    Распознавание лиц — рядовая задача глубокого обучения, и сверточные нейронные сети справляются с ней довольно хорошо. Facebook обычно правильно распознает вас и ваших друзей на фотографиях.

    Но является ли данная задача решенной? Что делать, если изображение сбивает с толку? Что, если человек выдает себя за кого-то другого? Может ли большое количество макияжа обмануть нейронную сеть? Насколько легко распознать человека, который носит очки?

    Распознавание замаскированных лиц по-прежнему представляет собой довольно сложную задачу для нейронных сетей, в первую очередь из-за отсутствия подходящих датасетов. В этой статье мы представим несколько собранных в последнее время датасетов. Каждый из них отражает различные типы искажений лиц, но их цель одна и та же — помочь разработчикам создавать лучшие модели для распознавания замаскированных лиц.

    Disguised Faces in the Wild

    Количество изображений: 11 157

    Количество лиц: 1 000

    Год: 2018

    Изображения: истинное, изображение-подтверждение, замаскированное, изображение-имитатор.

    Начнем с самого нового датасета, представленного ранее в этом году – Disguised Faces in the Wild (DFW). В основном он состоит из изображений знаменитостей индийского или европейского происхождения. В датасете основное внимание уделяется задаче распознавания замаскированных лиц.

    Согласно описанию DFW, в него включены следующие изображения лиц: с закрывающими лицо прическами, бородой, усами, очками, макияжем, головными уборами (шляпы, тюрбаны, вуали) и маскарадными масками. Изображения отличаются позой человека, его выражением лица, этнической принадлежностью, возрастом, полом, одеждой, а также освещением, фоном и качеством камеры.

    В датасете есть четыре типа изображений:

    • Истинное изображение лица: для каждого человека есть фотография, на котором его лицо не скрыто.
    • Изображение-подтверждение: для 903 человек имеются изображения, на котором их лица не скрыты и могут быть использованы для установления соответствия.
    • Замаскированное изображение лица: для каждого человека имеется от 1 до 12 изображений с преднамеренно или непреднамеренно замаскированным лицом.
    • Изображение имитатора: для 874 человек имеется от 1 до 21 изображений их имитаторов. Имитатор —  любой другой человек, намеренно или непреднамеренно претендующий на то, чтобы выдать себя за другого.
    Пример изображений трех человек из датасета DFW. Каждая строка соответствует одному человеку и содержит истинное изображение (серая рамка), изображение-подтверждение (желтая), замаскированное изображение (зеленая) и изображение имитатора (синяя).

    Суммарно датасет DFW содержит 1 000 обычных изображений, 903 изображений-подтверждений, 4 814 замаскированных изображений и 4 440 изображений имитаторов.

    Makeup Induced Face Spoofing

    Количество изображений: 642

    Количество лиц: 107 + 107 знаменитостей

    Год: 2017

    Попытка человека выдать себя за знаменитостей.

    Makeup Induced Face Spoofing dataset (MIFS) также используется для распознавания лиц имитаторов, но с упором на макияж. Исследователи извлекли изображения из видео на YouTube, на которых бьюти-блоггеры использовали макияж для того, чтобы стать похожими на знаменитостей. Следует отметить, однако, что они не пытались обмануть автоматизированную систему распознавания лиц сознательно, а лишь хотели добиться зрительного сходства со знаменитостями.

    Датасет состоит из 107 наборов из четырех фотографий: 2 до макияжа и 2 — после. Кроме того, в каждый набор включено по два изображения знаменитостей. Тем не менее, важно указать, что эти изображения не обязательно используются как опорные: знаменитости иногда сильно меняют внешность, и поэтому исследователи пытались выбрать такие их фотографии, которые были бы наиболее схожи с фотографиями имитаторов после макияжа.

    Наконец, на всех изображениях оставлялись только лица. После этого на них уже не видны прическа и украшения. Примеры изображений приведены ниже.

    Примеры изображений в датасете MIFS: до макияжа/после макияжа/изображение знаменитости.

    Всего датасет MIFS содержит 214 изображений лиц до макияжа, 214 — после, и 214 изображений знаменитостей, с которыми блоггеры хотели добиться сходства. Следует отметить, что если один человек пытался добиться сходства с несколькими знаменитостями, или же несколько человек пытались повторить внешность одной знаменитости, то все изображения дублируются соответствующее число раз.

    Датасет Specs on Faces

    Количество изображений: 42 592

    Количество лиц: 112

    Год: 2017

    Примеры изображений из датасета SoF: метаданные для каждого изображения включают 17 меток лица, прямоугольник, выделяющий очки, и прямоугольник, выделяющий лицо.

    Считается, что очки, как пример естественной окклюзии, нарушают работу многих алгоритмов распознавания лиц. Вот почему датасет изображений людей в очках имеет особое значение. Specs on Faces dataset (SoF) включают в себя 2 662 изображения размером 640 × 480 пикселей, на которых изображены 112 человек (66 мужчин и 46 женщин) разных возрастов. На всех из них надеты очки. Датасет состоит из двух частей:

    • 757 фотографий лиц, снятых в разных условиях (время, место, естественное/искусственное освещение);
    • 1905 фотографий лиц, снятых специально в плохих условиях освещения: 12 человек были сфотографированы под светом одной лампой, расположенной под разными углами, чтобы получить разные направления тени.
    Фотографии, снятые в разных условиях освещения.

    Также для каждого из исходных изображений имеются:

    • 6 дополнительных изображений с искусственной окклюзией — нос и рот закрыты белым прямоугольником;
    • 9 дополнительных изображений с наложенными фильтрами: гауссовским шумом, гауссовским размытием и изогелией с использованием нечеткой логики.

    Таким образом, SoF включает в себя 42 592 изображения 112 человек и огромный бонус — расставленные вручную метки, которые содержат идентификатор человека, ориентацию фото (фронтальная или нет), 17 меток лица, прямоугольники, выделяющие лицо и очки, а также метки пола, возраста, эмоции на лице человека и качество освещения.

    Large Age-Gap Face Verification

    Количество изображений: 3 828

    Количество лиц: 1 010 знаменитостей

    Год: 2017

    Примеры пар изображений одного человека в датасете LAG.

    Еще одной проблемой является большая разница в возрасте одного и того же человека на разных фотографиях. Может ли алгоритм распознать личность по детской фотографии? Датасет Large-age gap (LAG) был создан для того, чтобы помочь разработчикам решить эту сложную задачу.

    Датасет состоит из фотографий знаменитостей, найденных в поиске Google по картинкам и в видео на YouTube. Есть два случая: большая разница в возрасте на фотографиях (например, 0 и 80 лет) и значительное изменение внешности вследствие взросления. Как говорит автор датасета, «от 0 до 15 лет — относительно небольшая разница в возрасте, приводящая к большой разнице во внешности».

    Датасет LAG учитывает оба варианта. Он содержит 3 828 изображений 1 010 знаменитостей. Для каждого из них есть хотя бы одно изображение в детстве (молодости) и одно изображение в среднем (пожилом) возрасте. Всего было сгенерировано 5 051 пар изображений.

    Еще примеры пар изображений одного человека в датасете LAG.

    Проблема распознавания лиц до сих пор актуальна. Существует множество сложных задач, с которыми не справляются существующие алгоритмы распознавания лиц — для них проблемой оказывается даже наличие очков. К счастью, регулярно появляются новые датасеты изображений лиц. Хотя каждый из них фокусируется на различных аспектах проблемы, вместе они создают отличную основу для значительного улучшения работы систем распознавания лиц.