PULSE: нейросеть депикселизирует фото лица человека

PULSE — это нейросетевая модель, которая генерирует изображение в высоком разрешении из изображения в низком разрешении. Предложенная модель обучается self-supervised и генерирует изображения в беспрецедентно высоком разрешении.

Описание проблемы

Задача увеличения разрешения изображения (super-resolution) состоит в генерации изображения в высоком разрешении из изображения в низком разрешении. Прошлые подходы, которые, в основном, являются supervised, используют целевую функцию во время обучения, которая измеряет попиксельное расстояние между сгенерированным и целевым изображениями. Оптимизация таких метрик приводит к тому, что модель оставляет детализированные части изображения размытыми.

Исследователи предлагают иначе формулировать задачу повышения разрешения изображения. Идея в том, что бы модель генерировала изображение в высоком разрешении, которое при снижении разрешения максимально схоже с входным. PULSE (Photo Upsampling via Latent Space Exploration) обходит предыдущие подходы в разрешении генерируемых изображений и их реалистичности.

Что внутри модели

Вместо того, что бы добавлять детализацию к входному изображению в низком разрешении, PULSE ищет такие изображения в высоком разрешении, которые совпадают с входным при даунскейлинге. В архитектуре модели это формализуется с помощью специальной функции потерь (downscaling loss), которая направляет исследование скрытого пространства генеративной модели. Пространство поиска у модели ограничено, чтобы гарантировать реалистичность сгенерированных изображений.

дипекселизация — Визуализация процесса поиска по скрытому пространству генеративной модели

PULSE использует StyleGAN в качестве генеративной модели. На выходе нейросеть генерирует набор изображений в высоком разрешении, которые при понижении разрешения совпадают с входным. При этом модель не требует размеченных данных для обучения.

super-resolution Компьютерное зрение

Описание проблемы

Что внутри модели

Читайте также