fbpx
  • PULSE: нейросеть депикселизирует фото лица человека

    PULSE — это нейросетевая модель, которая генерирует изображение в высоком разрешении из изображения в низком разрешении. Предложенная модель обучается self-supervised и генерирует изображения в беспрецедентно высоком разрешении.

    Описание проблемы

    Задача увеличения разрешения изображения (super-resolution) состоит в генерации изображения в высоком разрешении из изображения в низком разрешении. Прошлые подходы, которые, в основном, являются supervised, используют целевую функцию во время обучения, которая измеряет попиксельное расстояние между сгенерированным и целевым изображениями. Оптимизация таких метрик приводит к тому, что модель оставляет детализированные части изображения размытыми. 

    Исследователи предлагают иначе формулировать задачу повышения разрешения изображения. Идея в том, что бы модель генерировала изображение в высоком разрешении, которое при снижении разрешения максимально схоже с входным. PULSE (Photo Upsampling via Latent Space Exploration) обходит предыдущие подходы в разрешении генерируемых изображений и их реалистичности. 

    Что внутри модели

    Вместо того, что бы добавлять детализацию к входному изображению в низком разрешении, PULSE ищет такие изображения в высоком разрешении, которые совпадают с входным при даунскейлинге. В архитектуре модели это формализуется с помощью специальной функции потерь (downscaling loss), которая направляет исследование скрытого пространства генеративной модели. Пространство поиска у модели ограничено, чтобы гарантировать реалистичность сгенерированных изображений.

    Визуализация процесса поиска по скрытому пространству генеративной модели

    PULSE использует StyleGAN в качестве генеративной модели. На выходе нейросеть генерирует набор изображений в высоком разрешении, которые при понижении разрешения совпадают с входным. При этом модель не требует размеченных данных для обучения.