fbpx
  • Нейросеть увеличивает разрешение изображения до 8 раз

    Исследователи из Кореи обучили нейросеть, которая увеличивает разрешение фотографии лица до 8 раз. Метод обходит state-of-the-art решения как по количественным, так и по качественным метрикам на задаче реконструкции лица человека по фотографии в низком разрешении. 

    Увеличение разрешения лица (Face Super-Resolution) — это подобласть задач увеличения разрешения изображений. Эта задача фокусируется на реконструировании изображений лица. Основная проблема задачи в том, что бы восстановить лицо человека без искажений. Метод, который предложили исследователи, генерирует реалистичные результаты и увеличивает разрешение изображения в 8 раз. Модель базируется на методе прогрессивного обучения, который позволяет стабильно обучать модель и делить ее на части. Каждая из частей принимает на вход результат предыдущей нейросети, и выдает еще более точную реконструкцию лица. Так, изображение реконструируется постепенно. Исследователи предложили новую функцию ошибки для оценки точности реконструкции лица. Функция потерь применяется на каждом шаге обучения нейросети и помогает минимизировать искажения черт лица. Кроме этого, разработчики публикую сжатую версию face alignment network (FAN). Эта нейросеть выдает тепловые карты лиц и маркируют ключевые точки лица. Добавление FAN к предложенному методу позволяет генерировать более достоверные изображения лиц.

    Что внутри модели

    Чтобы генерировать достоверные изображения лиц, которые отражают лицевые черты, исследователи используют три подхода. Подходы включают прогрессивное обучение, функция потерь для восстановления черт лица и модифицированная FAN.

    Архитектура, как и стандартно для генеративных нейросетей, состоит из двух основных компонент: генератор и дискриминатор. Чтобы генератор и дискриминатор обучались стабильно, обе части делятся на шаги обучения. Генератор состоит из 3-х residual блоков с batch нормализацией, транспонированных сверточных слоев и ReLU. Дискриминатор имеет схожую с генератором архитектуру: сверточные слои, average pooling слои и Leaky ReLU

    Визуализация составных частей нейросети

    Оценка работы модели

    Исследователи сравнивали результаты модели с state-of-the-art решениями. Ниже видно, что почти по всем метрикам предложенная нейросеть выдает более точные результаты.

    Сравнение конкурирующих архитектур по количественным метрикам
    Выборочные примеры сгенерированных моделями результатов. Target — целевое изображение