Нейросеть увеличивает разрешение изображения без размеченных данных

В университете ETH Zurich обучили GAN, которая без размеченных данных генерирует изображение в высоком разрешении. По результатам тестов, предложенная модель обходит state-of-the-art нейросеть ESRGAN. 

Большинство текущих методов для увеличения разрешения (SR) опираются на размеченные пары изображений в низком и высоком разрешениях. Такие пары изображений недоступны, поэтому в большинстве работ изображение в низком разрешении генерируется с помощью бикубического даунсемплинга. Этот метод генерации данных для обучения убирает естественный шум в изображениях и другие их свойства. В связи с этим нейросети, которые обучаются на синтетических данных, плохо генерализуют, когда на вход поступают реальные изображения.

Исследователи предлагают подход, который на основе не размеченных данных выучивает, как избавиться от эффектов даунсемплинга и возвращает естественные свойства изображения. Это позволяет генерировать реалистичные пары изображений, которые отражают распределение реальных изображений. Нейросеть можно обучать с учителем для задачи high resolution. При этом она устойчиво обобщает знания на реальные входные снимки. 

Читайте также: Обзор бесплатных приложений для улучшения качества фотографий

Как это работает

Основное преимущество модели — избавление от разницы в обучающем и тестовом распределениях. Эта разница возникает из-за бикубического даунсемплинга, который применяется для генерации обучающей выборки. Чтобы минимизировать разницу распределений, нейросеть выучивает операцию inverse mapping, которая восстанавливает естественные характеристики изображения. Операция соотнесения обучается для бикубических изображений и реальных изображений в низком разрешении. Соотнесение выучивается без учителя благодаря использованию cycle consistency функции потерь. Обученная нейросеть генерирует из бикубических изображений пары изображений в низком и высоком разрешениях.

Обучение модели состоит из следующих шагов:

  1. Сначала обучается нейросеть G, которая избавляется от сдвига в входных изображениях;
  2. Нейросеть принимает на вход изображения без сдвига с первого шага и генерирует изображение в высоком разрешении
Визуализация структуры модели

Оценка работы алгоритма

В сравнении с state-of-the-art алгоритмами для увеличения разрешения предложенный метод выступает либо так же, либо лучше остальных. Тесты проводились на датасете DIV2K.

Сравнение предложенной модели и state-of-the-art алгоритмов для Super-Resolution
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt