Реалистичная дорисовка изображений с использованием GAN

Deep learning применяется во многих задачах компьютерного зрения и показал хорошие результаты. Тем не менее, существуют задачи, с которыми нейронные сети справляются хуже традиционных подходов с использованием компьютерного зрения. Экстраполяция изображения (image outpainting) относится к последним. Пока заполнялись пропуски и добавлялись недостающие детали в изображения (image inpainting), image outpainting остается не очень популярной темой у исследователей и ей было посвящено всего несколько работ.

Тем не менее, исследователи из Стенфорда представили подход для задачи экстраполяции (image outpainting). Они решали проблему с помощью генеративно-состязательного обучения.

Генеративно-состязательное обучение DCGAN

Генеративно-состязательное обучение (GAN) привлекает много внимания уже несколько лет с момента появления. В этой работе исследователи используют GAN, чтобы “пририсовать” с помощью экстраполяции равные части к краям входного изображения.

Как и во многих генеративных задачах компьютерного зрения, целью является создание реалистичного (и приятного для глаз) изображения. Outpainting можно рассматривать как галлюцинацию за границами изображения. Интуитивно понятно, что это нетривиальная задача, поскольку в реальности все что угодно может оказаться за границами изображения. Таким образом, необходим значительный объем дополнительного контента, совпадающего с исходном изображением, особенно рядом с его границами.

Если генерация реалистичного контента вблизи границ изображения сложна, потому что контент должен хорошо совпадать с изображением, то генерация дальше от границ почти так же сложна, но уже по противоположной причине — отсутствие соседствующей информации.

В данной работе для решения проблемы экстраполяции изображений использовалась архитектура DCGAN. Авторы показывают, что их метод способен генерировать реалистичные образцы цветных изображений 128×128, и, кроме того, он допускает рекурсивную перерисовку, чтобы получать изображения большего размера.

Data

*Примеры изображений из набора данных Places365*

Датасет Places365 использовался для как для тренировки, так и для оценки метода. Авторы используют специфичную предварительную обработку, состоящую из трех ступеней:

нормализация изображения;
определение бинарной маски для центральной части изображения;
подсчет средней пиксельной интенсивности над немаскированным регионом.

После препроцессинга, каждое входное изображение представляется в виде пары из двух изображений: исходного и предобработанного. Предобработанное изображение получается путем маскировки исходного изображения и конкатенации с изображениями со средней интенсивностью пикселей.

Метод

Как упоминалось ранее, генеративная модель представляет собой сеть GAN, которая обучается по трехфазной учебной процедуре, чтобы добиться стабильности в процессе обучения. Генеративная сеть это несимметричная энкодер-декодер сеть и Дискриминатор, отвечающий за глобальные и локальные дискриминаторы. Генеративная сеть имеет 9 слоев (8 конволюционных и 1 деконволюционный), в то время как дискриминатор имеет 5 сверточных и 1 полностью подключенный уровень. Плюс конкатенациионный слой (concatenation layer), который объединяет выходы локальных дискриминаторов для создания одного выхода.

Каждый слой сопровождается активацией ReLU, за исключением выходных уровней в обеих сетях, а расширенные свертки используются для дальнейшего улучшения outpainting. Авторы утверждают, что расширенные свертки действительно сильно влияют на качество сгенерированного изображения и способность перерисовывать изображение. Фактически же, улучшение происходит из-за увеличения локальной восприимчивости области, которая позволяет перерисовать весь образ. Расширенные свертки — всего лишь эффективный способ увеличить локальное восприимчивое поле в сверточных слоях без увеличения вычислительной сложности.

Оценка и выводы

Подход исследователей из Стэнфорда показывает многообещающие результаты. Он способен генерировать относительно реалистичные изображения. Авторы оценили метод в основном качественно вследствие характера проблемы, а также использовали RMSE в качестве эталонной количественной оценочной метрики. Фактически, они используют модифицированную RMSE, где рассчитывают простую обработку изображения путем перенормировки.

В заключительной части статьи они объясняют проводимые эксперименты по рекурсивной перерисовке и показывают, что рекурсивно-перекрашенные изображения остаются относительно реалистичными, хоть остаются шумы от последовательности итераций. Рекурсивно-выведенное изображение с 5 итерациями приведено в качестве примера на изображении ниже.

Возможно, подход можно будет использовать для сжатия изображений.