• Тепловые карты компонент помогают восстановить лица на фотографиях с низким разрешением

    face-resolution-upscaling-facial-component-heatmap

    Результаты многих техник анализа лица полагаются на соответствующее разрешение изображения. Например, распознавание лица не будет работать корректно, если разрешение лица на фотографии низкое.

    Что такое Super-Resolution

    Face super-resolution (FSR) или лицевая галлюцинация (face hallucination) восстанавливает изображение лица в высоком разрешении (HR) из картинки низкого разрешения (LR). Эта область исследований привлекает к себе интерес в последние годы, однако даже современные методы часто выдают изображения с искаженной лицевой структурой и только частичным восстановлением деталей лица. Методы глубокого обучения для FSR не справляются с восстановление LR-лиц во некоторых позах, причем количество таких поз велико.

    Как же решить данную проблему? Есть два варианта:

    • Изменение тренировочных данных с большим количеством поз. Но это все еще приводит к субоптимальным результатам: детали лица размыты или вовсе отсутствуют
    • Напрямую находить лицевые компоненты на LR изображениях. Это может привести к фантомным артефактам в финальном результате.

    Но что насчет метода, который восстанавливает изображения учитывая предсказание лицевой структуры? Можем ли мы использовать тепловые карты для представления вероятности возникновения лицевого компонента?

    Вскоре мы узнаем об этом, а пока обратимся к предыдущим подходам.

    Связанные работы

    Методы построения галлюцинации лица могут быть грубо разделены на три категории

    • Подходы основанные на “глобальных моделях”, главная цель которых восстановить низкокачественное изображение путем обучения целостного отображения, например PCA. В частности  Wang и Tang реконструируют HR изображения по коэффициентам PCA от LR — входа. Liu и др. разработали Марковское случайное поле (Markov Random Field (MRF) для уменьшения фантомных артефактов порожденных неправильной оценкой LR-изображения.
    • Kolouri и  Rohde используют оптимальные техники переноса, чтобы преобразовать HR-результат путем интерполяции образцовых HR лиц.
    • Предлагаются “частичные методы” для восстановления отдельных участков лица по отдельности. Например, Tappen и Liu восстанавливают детали лица, деформируя опорные изображения HR;
    • Yang и др. локализуют компоненты лица в изображениях LR с помощью детектора ключевых точек лица, а затем реконструируют отсутствующие HR детали из аналогичных компонентов HR.
    • Глубокое обучение: Xu и др. используют фреймворк GAN для восстановления размытого изображения лица;
    • Zhu и коллеги представили каскадную bi-сеть, названную CBN, которая сначала локализует LR лицевые компоненты, а затем увеличивает разрешения деталей лица.

    State-of-the-art идея

    Xin Yu и его коллеги предлагают многозадачную глубокую нейронную сеть, которая не только восстанавливает LR-изображения, но и оценивает пространственные положения лицевых компонентов. Их сверточная нейронная сеть (CNN) имеет две ветви: одну для восстановления изображений лица, а другую — для прогнозирования характерных областей лица по тепловыми картам.

    Целиком процесс выглядеть следующим образом:

    1. Распознавание признаков (фич) по входящему LR изображению.
    2. Использование пространственного преобразования для выравнивнивания фич-карт.
    3. Оценка тепловых карт лицевых компонентов по улучшенным фич-картам.
    4. Конкатенация оценочных тепловых карт с фич-картами.

    Метод позволяет улучшить крошечное выровненное изображение лица (16х16 пикселей) с множителем 8х с сохранением структуры лица.

    улучшение качества фотографий с лицами
    (a) изображение LR; (б) изображение HR; c) ближайшие соседи; (d) CBN, (e) TDAE, (f) TDAE обучается лучшему набору данных, (g) предлагаемый подход

    Обзор модели

    Нейросеть имеет следующую структуру:

    1. Многозадачная улучшающая нейросеть (MTUN):
      • Ветка улучшения ( состоит из автоэнкодера, разверточных слоев и сети пространственное трансформации)
      • Ветка оценки теплокарт лица (HEB)
    2. Дискриминационная сеть, которая состоит из сверточных слоев и полносвязных слоев.

    архитектура модели

    Оценка тепловых карт лица. Даже самые современные датчики лица не могут точно локализовать ключевые точки лица в изображениях с очень низким разрешением. Таким образом, исследователи предлагают предсказать тепловые карты лицевого компонента из улучшенных фич-карт.

    2D-фотографии могут иметь широкий диапазон поз. Таким образом, чтобы уменьшить количество обучающих образов, необходимых для обучения HEB, они предлагают использовать сеть пространственных трансформаторов (STN) для выравнивания характеристик с улучшенной дискретизацией перед оценкой тепловых карт.

    По оценкам, четыре карты представляют четыре компонента лица: глаза, нос, рот и подбородок (см. Изображение ниже).

    Визуализация оценочных тепловых карт лицевого компонента: (a) невыровненное изображение LR; (б) изображение HR; c) карты теплоты; d) результат; (e) Предполагаемые тепловые карты, лежащие в основе результатов
    Визуализация оценочных тепловых карт лицевого компонента: (a) невыровненное изображение LR; (б) изображение HR; c) карты теплоты; d) результат; (e) Предполагаемые тепловые карты, лежащие в основе результатов

    Функция потерь. Результат использования различных комбинации функции потерь показаны ниже

    a. невыровненное изображение LR, b. оригинальное изображение HR, c. только пиксельные потери, d. пиксельные и многофункциональные потери, e. пиксельные, функциональные и дискриминационные потери, f. пиксельные и лицевой структуры потери, g. пиксельные, функциональные и потери структуры h. пиксельные, функциональные, дискриминационные и структурные потери.
    a. невыровненное изображение LR, b. оригинальное изображение HR, c. только пиксельные потери, d. пиксельные и многофункциональные потери, e. пиксельные, функциональные и дискриминационные потери, f. пиксельные и лицевой структуры потери, g. пиксельные, функциональные и потери структуры h. пиксельные, функциональные, дискриминационные и структурные потери.

    При обучении своей многозадачной улучшающей сети исследователи выбрали последний вариант (h).

    Качественные и количественные сравнения

    Качественное сравнение предлагаемого подхода с использованием самых современных методов:

    Сравнение с самыми современными методами: (a) LR image; (б) изображение HR; c) бикубическая интерполяция; d) VDSR; e) SRGAN; (f) метод Ma и др.; g) CBN; h) TDAE; (i) Предлагаемый подход
    Сравнение с самыми современными методами: (a) LR image; (б) изображение HR; c) бикубическая интерполяция; d) VDSR; e) SRGAN; (f) метод Ma и др.; g) CBN; h) TDAE; (i) Предлагаемый подход

    Как вы можете видеть, большинство существующих методов не позволяют создавать реалистичные детали лица, в то время как предлагаемый подход выводит реалистичные и подробные изображения, которые очень близки к оригинальному изображению HR.

    Количественное сравнение с самыми современными методами приводит нас к тем же выводам. Все методы оценивались по всему тестовому набору данных по среднему значению PSNR и по шкале структурного сходства (SSIM).

    Количественные сравнения по всему набору тестовых данных
    Количественные сравнения по всему набору тестовых данных

    Выводы

    Подведем итог вкладу этой работы:

    • Он представляет собой новую многозадачную сеть с повышающей дискретизацией, которая может обрабатывать очень маленькие изображения лица LR (16 x 16 пикселей) с помощью коэффициента масштабирования 8x.
    • Метод не только использует сходство интенсивности изображения, но и оценивает структуру лица с помощью тепловых карт лицевых компонент.
    • Оцененные тепловые карты лицевых компонент обеспечивают не только пространственную информацию о компонентах лица, но также информацию о видимости.
    • Благодаря выравниванию карт функций перед оценкой тепловой карты количество изображений, необходимых для обучения модели, в значительной степени сокращается.

    Этот метод хорош для восстановления лиц с очень низким разрешением в разных позах и генерирует реалистичные и подробные изображения без искажений и артефактов.