fbpx
  • Нейросеть увеличивает разрешение изображения без размеченных данных

    В университете ETH Zurich обучили GAN, которая без размеченных данных генерирует изображение в высоком разрешении. По результатам тестов, предложенная модель обходит state-of-the-art нейросеть ESRGAN. 

    Большинство текущих методов для увеличения разрешения (SR) опираются на размеченные пары изображений в низком и высоком разрешениях. Такие пары изображений недоступны, поэтому в большинстве работ изображение в низком разрешении генерируется с помощью бикубического даунсемплинга. Этот метод генерации данных для обучения убирает естественный шум в изображениях и другие их свойства. В связи с этим нейросети, которые обучаются на синтетических данных, плохо генерализуют, когда на вход поступают реальные изображения.

    Исследователи предлагают подход, который на основе не размеченных данных выучивает, как избавиться от эффектов даунсемплинга и возвращает естественные свойства изображения. Это позволяет генерировать реалистичные пары изображений, которые отражают распределение реальных изображений. Нейросеть можно обучать с учителем для задачи high resolution. При этом она устойчиво обобщает знания на реальные входные снимки. 

    Как это работает

    Основное преимущество модели — избавление от разницы в обучающем и тестовом распределениях. Эта разница возникает из-за бикубического даунсемплинга, который применяется для генерации обучающей выборки. Чтобы минимизировать разницу распределений, нейросеть выучивает операцию inverse mapping, которая восстанавливает естественные характеристики изображения. Операция соотнесения обучается для бикубических изображений и реальных изображений в низком разрешении. Соотнесение выучивается без учителя благодаря использованию cycle consistency функции потерь. Обученная нейросеть генерирует из бикубических изображений пары изображений в низком и высоком разрешениях.

    Обучение модели состоит из следующих шагов:

    1. Сначала обучается нейросеть G, которая избавляется от сдвига в входных изображениях;
    2. Нейросеть принимает на вход изображения без сдвига с первого шага и генерирует изображение в высоком разрешении
    Визуализация структуры модели

    Оценка работы алгоритма

    В сравнении с state-of-the-art алгоритмами для увеличения разрешения предложенный метод выступает либо так же, либо лучше остальных. Тесты проводились на датасете DIV2K.

    Сравнение предложенной модели и state-of-the-art алгоритмов для Super-Resolution