fbpx
  • Генеративная нейросеть меняет время суток на изображении

    Samsung AI опубликовали нейросетевую модель, которая заменяет освещение на изображении в зависимости от времени суток. Код проекта доступен в открытом репозитории на GitHub.

    Моделирование времени суток для изображений в высоком разрешений — это одна из актуальных задач современного компьютерного зрения. Задача предполагает, что освещение на изображении будет заменено на соответствующее для утра, дня, ночи и заката. Исследователи предлагают HiDT (high-resolution daytime translation) модель. HiDT объединяет в себе генеративную image-to-image модель и новую методику апсемплинга, которая позволяет генерировать изображения в высоком разрешении. Предложенный подход выдает сопоставимые с state-of-the-art моделями результаты по количественным и качественным метрикам. При этом модель обучали на датасете с изображениями без размеченных лейблов времени суток.

    Обзор структуры модели

    Исследователи решали задачу генерации видео-таймлапсов из дня в ночь. Для этого использовали существующую проблему перевода одного изображения в другое. Основная часть HiDT — это архитектура с энкодером и декодером. Энкодер раскладывает входное изображение на вектор стиля и тензор контента. Затем декодер генерирует новое изображение с помощью тензора контента из входного изображения и вектора стиля из изображения, которое является референсом стиля. Оба компонента (стиль и контент) объединяются в одни с помощью AdaIN слоя.

    Работа модели состоит из следующих шагов:

    1. Энкодер контента соотносит входное изображение с 3D тензором с помощью нескольких сверточных даунсемплинг слоев и остаточных блоков;
    2. Энкодер стиля — это полностью сверточная сеть, в конце которой стоят global pooling и сверточный слой для сжатия;
    3. Генератор обрабатывает входное изображение с помощью нескольких остаточных блоков с AdaIN модулями и последующего апсемплинга
    Предложенный метод апсемплинга для генерации изображения в высоком разрешении

    Тестирование работы нейросети 

    Исследователи собрали датасет из 20,000 изображений пейзажей из интернета для обучения и тестирования моделей. Небольшая часть изображений была размечена вручную на 4 класса: ночь, восход/закат, утро/вечер, день. Затем они использовали сверточный классификатор, чтобы разметить оставшиеся изображения. HiDT сравнивали с двумя базовыми моделями: FUNIT и Multi-domain DRIT++. Ниже видно, что три модели выдают схожие результаты на тестовом наборе данных.

    Сравнение подходов на тестовом наборе данных