Тепловые карты компонент помогают восстановить лица на фотографиях с низким разрешением

face-resolution-upscaling-facial-component-heatmap

Результаты многих техник анализа лица полагаются на соответствующее разрешение изображения. Например, распознавание лица не будет работать корректно, если разрешение лица на фотографии низкое.

Что такое Super-Resolution

Face super-resolution (FSR) или лицевая галлюцинация (face hallucination) восстанавливает изображение лица в высоком разрешении (HR) из картинки низкого разрешения (LR). Эта область исследований привлекает к себе интерес в последние годы, однако даже современные методы часто выдают изображения с искаженной лицевой структурой и только частичным восстановлением деталей лица. Методы глубокого обучения для FSR не справляются с восстановление LR-лиц во некоторых позах, причем количество таких поз велико.

Как же решить данную проблему? Есть два варианта:

  • Изменение тренировочных данных с большим количеством поз. Но это все еще приводит к субоптимальным результатам: детали лица размыты или вовсе отсутствуют
  • Напрямую находить лицевые компоненты на LR изображениях. Это может привести к фантомным артефактам в финальном результате.

Но что насчет метода, который восстанавливает изображения учитывая предсказание лицевой структуры? Можем ли мы использовать тепловые карты для представления вероятности возникновения лицевого компонента?

Вскоре мы узнаем об этом, а пока обратимся к предыдущим подходам.

Связанные работы

Методы построения галлюцинации лица могут быть грубо разделены на три категории

  • Подходы основанные на “глобальных моделях”, главная цель которых восстановить низкокачественное изображение путем обучения целостного отображения, например PCA. В частности  Wang и Tang реконструируют HR изображения по коэффициентам PCA от LR — входа. Liu и др. разработали Марковское случайное поле (Markov Random Field (MRF) для уменьшения фантомных артефактов порожденных неправильной оценкой LR-изображения.
  • Kolouri и  Rohde используют оптимальные техники переноса, чтобы преобразовать HR-результат путем интерполяции образцовых HR лиц.
  • Предлагаются “частичные методы” для восстановления отдельных участков лица по отдельности. Например, Tappen и Liu восстанавливают детали лица, деформируя опорные изображения HR;
  • Yang и др. локализуют компоненты лица в изображениях LR с помощью детектора ключевых точек лица, а затем реконструируют отсутствующие HR детали из аналогичных компонентов HR.
  • Глубокое обучение: Xu и др. используют фреймворк GAN для восстановления размытого изображения лица;
  • Zhu и коллеги представили каскадную bi-сеть, названную CBN, которая сначала локализует LR лицевые компоненты, а затем увеличивает разрешения деталей лица.

State-of-the-art идея

Xin Yu и его коллеги предлагают многозадачную глубокую нейронную сеть, которая не только восстанавливает LR-изображения, но и оценивает пространственные положения лицевых компонентов. Их сверточная нейронная сеть (CNN) имеет две ветви: одну для восстановления изображений лица, а другую — для прогнозирования характерных областей лица по тепловыми картам.

Целиком процесс выглядеть следующим образом:

  1. Распознавание признаков (фич) по входящему LR изображению.
  2. Использование пространственного преобразования для выравнивнивания фич-карт.
  3. Оценка тепловых карт лицевых компонентов по улучшенным фич-картам.
  4. Конкатенация оценочных тепловых карт с фич-картами.

Метод позволяет улучшить крошечное выровненное изображение лица (16х16 пикселей) с множителем 8х с сохранением структуры лица.

улучшение качества фотографий с лицами
(a) изображение LR; (б) изображение HR; c) ближайшие соседи; (d) CBN, (e) TDAE, (f) TDAE обучается лучшему набору данных, (g) предлагаемый подход

Обзор модели

Нейросеть имеет следующую структуру:

  1. Многозадачная улучшающая нейросеть (MTUN):
    • Ветка улучшения ( состоит из автоэнкодера, разверточных слоев и сети пространственное трансформации)
    • Ветка оценки теплокарт лица (HEB)
  2. Дискриминационная сеть, которая состоит из сверточных слоев и полносвязных слоев.

архитектура модели

Оценка тепловых карт лица. Даже самые современные датчики лица не могут точно локализовать ключевые точки лица в изображениях с очень низким разрешением. Таким образом, исследователи предлагают предсказать тепловые карты лицевого компонента из улучшенных фич-карт.

2D-фотографии могут иметь широкий диапазон поз. Таким образом, чтобы уменьшить количество обучающих образов, необходимых для обучения HEB, они предлагают использовать сеть пространственных трансформаторов (STN) для выравнивания характеристик с улучшенной дискретизацией перед оценкой тепловых карт.

По оценкам, четыре карты представляют четыре компонента лица: глаза, нос, рот и подбородок (см. Изображение ниже).

Визуализация оценочных тепловых карт лицевого компонента: (a) невыровненное изображение LR; (б) изображение HR; c) карты теплоты; d) результат; (e) Предполагаемые тепловые карты, лежащие в основе результатов
Визуализация оценочных тепловых карт лицевого компонента: (a) невыровненное изображение LR; (б) изображение HR; c) карты теплоты; d) результат; (e) Предполагаемые тепловые карты, лежащие в основе результатов

Функция потерь. Результат использования различных комбинации функции потерь показаны ниже

a. невыровненное изображение LR, b. оригинальное изображение HR, c. только пиксельные потери, d. пиксельные и многофункциональные потери, e. пиксельные, функциональные и дискриминационные потери, f. пиксельные и лицевой структуры потери, g. пиксельные, функциональные и потери структуры h. пиксельные, функциональные, дискриминационные и структурные потери.
a. невыровненное изображение LR, b. оригинальное изображение HR, c. только пиксельные потери, d. пиксельные и многофункциональные потери, e. пиксельные, функциональные и дискриминационные потери, f. пиксельные и лицевой структуры потери, g. пиксельные, функциональные и потери структуры h. пиксельные, функциональные, дискриминационные и структурные потери.

При обучении своей многозадачной улучшающей сети исследователи выбрали последний вариант (h).

Качественные и количественные сравнения

Качественное сравнение предлагаемого подхода с использованием самых современных методов:

Сравнение с самыми современными методами: (a) LR image; (б) изображение HR; c) бикубическая интерполяция; d) VDSR; e) SRGAN; (f) метод Ma и др.; g) CBN; h) TDAE; (i) Предлагаемый подход
Сравнение с самыми современными методами: (a) LR image; (б) изображение HR; c) бикубическая интерполяция; d) VDSR; e) SRGAN; (f) метод Ma и др.; g) CBN; h) TDAE; (i) Предлагаемый подход

Как вы можете видеть, большинство существующих методов не позволяют создавать реалистичные детали лица, в то время как предлагаемый подход выводит реалистичные и подробные изображения, которые очень близки к оригинальному изображению HR.

Количественное сравнение с самыми современными методами приводит нас к тем же выводам. Все методы оценивались по всему тестовому набору данных по среднему значению PSNR и по шкале структурного сходства (SSIM).

Количественные сравнения по всему набору тестовых данных
Количественные сравнения по всему набору тестовых данных

Выводы

Подведем итог вкладу этой работы:

  • Он представляет собой новую многозадачную сеть с повышающей дискретизацией, которая может обрабатывать очень маленькие изображения лица LR (16 x 16 пикселей) с помощью коэффициента масштабирования 8x.
  • Метод не только использует сходство интенсивности изображения, но и оценивает структуру лица с помощью тепловых карт лицевых компонент.
  • Оцененные тепловые карты лицевых компонент обеспечивают не только пространственную информацию о компонентах лица, но также информацию о видимости.
  • Благодаря выравниванию карт функций перед оценкой тепловой карты количество изображений, необходимых для обучения модели, в значительной степени сокращается.

Этот метод хорош для восстановления лиц с очень низким разрешением в разных позах и генерирует реалистичные и подробные изображения без искажений и артефактов.

Подписаться
Уведомить о
guest

1 Comment
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Сергей Александрович Попов

Здравствуйте, мне очень нужна помощь с использованием таких технологий. Дело в том что я хочу сделать фото на памятник моего отца а у меня сохранилась только одна фотография и очень… Подробнее »


gogpt