Тепловые карты компонент помогают восстановить лица на фотографиях с низким разрешением

face-resolution-upscaling-facial-component-heatmap

Результаты многих техник анализа лица полагаются на соответствующее разрешение изображения. Например, распознавание лица не будет работать корректно, если разрешение лица на фотографии низкое.

Что такое Super-Resolution

Face super-resolution (FSR) или лицевая галлюцинация (face hallucination) восстанавливает изображение лица в высоком разрешении (HR) из картинки низкого разрешения (LR). Эта область исследований привлекает к себе интерес в последние годы, однако даже современные методы часто выдают изображения с искаженной лицевой структурой и только частичным восстановлением деталей лица. Методы глубокого обучения для FSR не справляются с восстановление LR-лиц во некоторых позах, причем количество таких поз велико.

Как же решить данную проблему? Есть два варианта:

Изменение тренировочных данных с большим количеством поз. Но это все еще приводит к субоптимальным результатам: детали лица размыты или вовсе отсутствуют
Напрямую находить лицевые компоненты на LR изображениях. Это может привести к фантомным артефактам в финальном результате.

Но что насчет метода, который восстанавливает изображения учитывая предсказание лицевой структуры? Можем ли мы использовать тепловые карты для представления вероятности возникновения лицевого компонента?

Вскоре мы узнаем об этом, а пока обратимся к предыдущим подходам.

Связанные работы

Методы построения галлюцинации лица могут быть грубо разделены на три категории

Подходы основанные на “глобальных моделях”, главная цель которых восстановить низкокачественное изображение путем обучения целостного отображения, например PCA. В частности Wang и Tang реконструируют HR изображения по коэффициентам PCA от LR — входа. Liu и др. разработали Марковское случайное поле (Markov Random Field (MRF) для уменьшения фантомных артефактов порожденных неправильной оценкой LR-изображения.
Kolouri и Rohde используют оптимальные техники переноса, чтобы преобразовать HR-результат путем интерполяции образцовых HR лиц.
Предлагаются “частичные методы” для восстановления отдельных участков лица по отдельности. Например, Tappen и Liu восстанавливают детали лица, деформируя опорные изображения HR;
Yang и др. локализуют компоненты лица в изображениях LR с помощью детектора ключевых точек лица, а затем реконструируют отсутствующие HR детали из аналогичных компонентов HR.
Глубокое обучение: Xu и др. используют фреймворк GAN для восстановления размытого изображения лица;
Zhu и коллеги представили каскадную bi-сеть, названную CBN, которая сначала локализует LR лицевые компоненты, а затем увеличивает разрешения деталей лица.

State-of-the-art идея

Xin Yu и его коллеги предлагают многозадачную глубокую нейронную сеть, которая не только восстанавливает LR-изображения, но и оценивает пространственные положения лицевых компонентов. Их сверточная нейронная сеть (CNN) имеет две ветви: одну для восстановления изображений лица, а другую — для прогнозирования характерных областей лица по тепловыми картам.

Целиком процесс выглядеть следующим образом:

Распознавание признаков (фич) по входящему LR изображению.
Использование пространственного преобразования для выравнивнивания фич-карт.
Оценка тепловых карт лицевых компонентов по улучшенным фич-картам.
Конкатенация оценочных тепловых карт с фич-картами.

Метод позволяет улучшить крошечное выровненное изображение лица (16х16 пикселей) с множителем 8х с сохранением структуры лица.

улучшение качества фотографий с лицами — (a) изображение LR; (б) изображение HR; c) ближайшие соседи; (d) CBN, (e) TDAE, (f) TDAE обучается лучшему набору данных, (g) предлагаемый подход

Обзор модели

Нейросеть имеет следующую структуру:

Многозадачная улучшающая нейросеть (MTUN):
- Ветка улучшения ( состоит из автоэнкодера, разверточных слоев и сети пространственное трансформации)
- Ветка оценки теплокарт лица (HEB)
Дискриминационная сеть, которая состоит из сверточных слоев и полносвязных слоев.

Оценка тепловых карт лица. Даже самые современные датчики лица не могут точно локализовать ключевые точки лица в изображениях с очень низким разрешением. Таким образом, исследователи предлагают предсказать тепловые карты лицевого компонента из улучшенных фич-карт.

2D-фотографии могут иметь широкий диапазон поз. Таким образом, чтобы уменьшить количество обучающих образов, необходимых для обучения HEB, они предлагают использовать сеть пространственных трансформаторов (STN) для выравнивания характеристик с улучшенной дискретизацией перед оценкой тепловых карт.

По оценкам, четыре карты представляют четыре компонента лица: глаза, нос, рот и подбородок (см. Изображение ниже).

Визуализация оценочных тепловых карт лицевого компонента: (a) невыровненное изображение LR; (б) изображение HR; c) карты теплоты; d) результат; (e) Предполагаемые тепловые карты, лежащие в основе результатов

Функция потерь. Результат использования различных комбинации функции потерь показаны ниже

a. невыровненное изображение LR, b. оригинальное изображение HR, c. только пиксельные потери, d. пиксельные и многофункциональные потери, e. пиксельные, функциональные и дискриминационные потери, f. пиксельные и лицевой структуры потери, g. пиксельные, функциональные и потери структуры h. пиксельные, функциональные, дискриминационные и структурные потери.

При обучении своей многозадачной улучшающей сети исследователи выбрали последний вариант (h).

Качественные и количественные сравнения

Качественное сравнение предлагаемого подхода с использованием самых современных методов:

Сравнение с самыми современными методами: (a) LR image; (б) изображение HR; c) бикубическая интерполяция; d) VDSR; e) SRGAN; (f) метод Ma и др.; g) CBN; h) TDAE; (i) Предлагаемый подход

Как вы можете видеть, большинство существующих методов не позволяют создавать реалистичные детали лица, в то время как предлагаемый подход выводит реалистичные и подробные изображения, которые очень близки к оригинальному изображению HR.

Количественное сравнение с самыми современными методами приводит нас к тем же выводам. Все методы оценивались по всему тестовому набору данных по среднему значению PSNR и по шкале структурного сходства (SSIM).

Количественные сравнения по всему набору тестовых данных

Выводы

Подведем итог вкладу этой работы:

Он представляет собой новую многозадачную сеть с повышающей дискретизацией, которая может обрабатывать очень маленькие изображения лица LR (16 x 16 пикселей) с помощью коэффициента масштабирования 8x.
Метод не только использует сходство интенсивности изображения, но и оценивает структуру лица с помощью тепловых карт лицевых компонент.
Оцененные тепловые карты лицевых компонент обеспечивают не только пространственную информацию о компонентах лица, но также информацию о видимости.
Благодаря выравниванию карт функций перед оценкой тепловой карты количество изображений, необходимых для обучения модели, в значительной степени сокращается.

Этот метод хорош для восстановления лиц с очень низким разрешением в разных позах и генерирует реалистичные и подробные изображения без искажений и артефактов.

Автор: Станислав Литвинов

Источник: https://basurafernando.github.io/papers/XinYuECCV18.pdf

1 Comment

Старые

Новые Популярные

Межтекстовые Отзывы

Посмотреть все комментарии

Сергей Александрович Попов

3 лет назад

Здравствуйте, мне очень нужна помощь с использованием таких технологий. Дело в том что я хочу сделать фото на памятник моего отца а у меня сохранилась только одна фотография и очень… Подробнее »

Ответить