PULSE — это нейросетевая модель, которая генерирует изображение в высоком разрешении из изображения в низком разрешении. Предложенная модель обучается self-supervised и генерирует изображения в беспрецедентно высоком разрешении.
Описание проблемы
Задача увеличения разрешения изображения (super-resolution) состоит в генерации изображения в высоком разрешении из изображения в низком разрешении. Прошлые подходы, которые, в основном, являются supervised, используют целевую функцию во время обучения, которая измеряет попиксельное расстояние между сгенерированным и целевым изображениями. Оптимизация таких метрик приводит к тому, что модель оставляет детализированные части изображения размытыми.
Читайте также: Нейросети для улучшения качества фото: обзор онлайн сервисов
Исследователи предлагают иначе формулировать задачу повышения разрешения изображения. Идея в том, что бы модель генерировала изображение в высоком разрешении, которое при снижении разрешения максимально схоже с входным. PULSE (Photo Upsampling via Latent Space Exploration) обходит предыдущие подходы в разрешении генерируемых изображений и их реалистичности.
Что внутри модели
Вместо того, что бы добавлять детализацию к входному изображению в низком разрешении, PULSE ищет такие изображения в высоком разрешении, которые совпадают с входным при даунскейлинге. В архитектуре модели это формализуется с помощью специальной функции потерь (downscaling loss), которая направляет исследование скрытого пространства генеративной модели. Пространство поиска у модели ограничено, чтобы гарантировать реалистичность сгенерированных изображений.
PULSE использует StyleGAN в качестве генеративной модели. На выходе нейросеть генерирует набор изображений в высоком разрешении, которые при понижении разрешения совпадают с входным. При этом модель не требует размеченных данных для обучения.