UFFD - датасет для обнаружения лиц в сложных условиях

Решение задачи распознавания лица на изображении подразумевает, что сначала нужно обнаружить это лицо. Механизмы детекции лиц улучшилось за последние годы, алгоритмы работают при различающихся масштабах и позах. Тем не менее, некоторые проблемы до сих пор игнорируются в конкретных подходах и датасетах для распознавания лиц.

Группа исследователей, возглавляемя Hajime Nada из Fujitsu, выявила ряд проблем при обнаружении лиц и собрала UFDD датасет, чтобы решить эти проблемы. Датасет включает в себя фотографии в дождь, снег, туман, при слабом освещении и сильно размытые. Кроме того, он также содержит набор дистракторов — изображений, на которых нет лиц, но есть объекты, которые ошибочно принимаются за лица.

Проверим, как современные подходы к обнаружению лиц работают с этим новым сложным датасетом. Виден ли разрыв между качеством работы алгоритмов и требованиями, предъявляемыми к ним? Узнаем прямо сейчас!

Датасеты для обнаружения лиц

Для распознавания лиц было разработано несколько датасетов. В таблице представлены параметры самых популярных используемых из них:

Давайте кратко обсудим некоторые преимущества и недостатки этих датасетов:

AFW состоит из 205 изображений, собранных на сервисе Flickr. Он содержит 473 вида пометок, включая лицевые лендмарки и ярлыки для разных людей. Различия в стилях и условиях съемки незначительны.
PASCAL FACE содержит 851 изображение с 1 341 пометкой. Как и в предыдущем датасете, различия в условиях съемки незначительны.
FDDB — 2 845 изображений с 5 171 пометок. Авторы датасета старались сделать его разнообразным. Однако изображения были взяты из Yahoo! и, в основном, содержат лица знаменитостей.
MALF — датасет из 5250 изображений и 11 900 пометок. Разработан специально для обработки мелкозернистых изображений.
IJB-C — большой датасет, содержащий 138 000 изображений с лицами, 11 000 видео и 10 000 изображений без лиц. IJB-C разработан специально для обнаруженияи распознавания лиц.
WIDER FACE — недавно представленный датасет с более чем 32 300 изображениями. Он включает фотографии с сильно различающимися условиями съемки (масштабом, позой, углом обзора), но не предназначен для учета деградаций, связанных с погодными условиями.
Датасет UCCS позволяет работать со снимками, сделанными в сложных погодных условиях. Однако изображения собраны с помощью одной камеры наблюдения. Следовательно, этот датасет не представляет многообразие условий съемки.

Несмотря на огромное количество изображений и условий съемки, существующие датасеты не позволяют изучать деградации, связанные с погодными (и другими) условиями, на большой выборке. Именно эту нишу занимает новый датасет.

Датасет UFDD

UFDD включает в себя 6,424 изображения с 10 895 метками. Изображения в нем обладают большой вариабельностью погодных условий (дождь, снег, туман), размытости движений, фокуса, освещения и препятствий на объективе. Количество изображений в группах различных ухудшений приведено в таблице:

Примечательно, что UFDD включает в себя набор изображений-дистракторов, которые обычно отсутствуют в других датасетах. На них либо нет лица, либо есть морды животных. Наличие таких изображений важно для определения эффективности алгоритма и изучения статистики ложно-позитивных срабатываний.

UFDD собран из изображений с Google, Bing, Yahoo, Creative Commons Search, Pixabay, Pixels, Wikimedia commons, Flickr, Unsplash, Vimeo и Baidu. После cбора и удаления дубликатов, изображения были сжаты/растянуты до 1024 пикселей по ширине при сохранении их исходных пропорций.

Для создания пометок изображения загружались в AMT (Amazon Mechanical turk). Для каждого изображения назначалось 5-9 сотрудников, которым было предложено поставить метки распознаваемым лицам. По завершении работы пометки окончательно утверждались и при необходимости объединялись.

Оценка и анализ

Ученые отобрали несколько алгоритмов обнаружения лиц для оценки датасета UFDD. Среди них:

Faster-RCNN — один из первых сквозных методов обнаружения объектов на основе сверточной нейронной сети. Он был выбран в качестве основного алгоритма, так как в нем впервые были использованы anchor boxes — стандартный подход для большинства методов распознавания лиц.
HR-ER работает с существенно различающимися масштабами, распознавание работает на основе ResNet-101.
SSH также работает с различными масштабами и состоит из нескольких детекторов на conv-слоях VGG-16.
S3FD основан на популярной инфраструктуре распознавания объектов, SSD, с VGG-16 в качестве основной сети.

Перечисленные алгоритмы были протестированы на датасете UFDD в двух различных сценариях:

После предварительного обучения на датасете WIDER FACE;
После предварительного обучения на датасете WIDER FACE, искусственно дополненном изображениями с ухудшениями, такими как дождь, снег, размытие и препятствия. Пример:

Выборка помеченных изображений из искусственно дополненного датасета WIDER FACE (слева направо и сверху вниз: дождь, снег, размытие в движении, размытие по Гауссу, измененное освещение, препятствия на объективе)

На следующем рисунке приведены зависимости точности алгоритмов от их чувствительности:

обнаружение лиц на фотографиях — Результаты оценки алгоритмов распознавания лиц на новом датасете UFDD, обученных на датасете WIDER FACE (слева) и на искусственно дополненном WIDER FACE (справа)

В таблице 3 приведена средняя точность (mAP) алгоритмов в зависимости от тренировочного датасета:

Можно отметить, что современные алгоритмы плохо справляются со сложными типами ухудшений. Однако эффективность обнаружения увеличивается после тренировке на искусственном датасете, что еще раз подтверждает важность датасетов, содержащих деградации (дождь, снег и т. д.).

Анализ по группам

Ученые также проанализировали влияние каждого типа ухудшений на эффективность современных методов обнаружения лиц. Ниже приведены результаты распознавания для всех упомянутых выше алгоритмов:

UFFD dataset — Результаты распознавания лиц на датасете UFDD

Графики зависимости точности от чувствительности:

Анализ по группам: зависимость точности от чувствительности различных алгоритмов обнаружения лиц для каждого типа ухудшений на новом датасете UFDD

Очевидно, что все рассмотренные типы ухудшений снижают эффективность сравниваемых алгоритмов. Это не удивительно, учитывая, что они обучаются на датасетах, которые обычно не содержат достаточного количества изображений с этими ухудшениями.

Результаты оценки также показывают влияние дистракторов на эффективность алгоритмов распознавания лица. Дистракторы содержат объекты, которые ошибочно принимаются за человеческие лица и, следовательно, приводят к большой вероятности ложно-позитивного срабатывания. Улучшение точности при обучении на дистракторах видно из таблицы:

Результаты распознавания лиц на новом датасете UFDD с использованием дистракторов и без них

Несмотря на прогресс в последние несколько лет, алгоритмы обнаружения лиц по-прежнему не справляются с изображениями, сделанными в экстремальных погодных условиях и в движении. Это связано с отсутствием подходящих датасетов для обучения.

Датасет UFDD решает эту проблему. Надеюсь, он будет способствовать дальнейшему развитию техники распознавания лиц, и вскоре мы увидим новые современные подходы, которые могут легко распознавать лица в экстремальных условиях съемки. Датасет доступен по ссылке.

Интересные статьи: