Семантическая пирамида для генерации изображений

Исследователи из Google опубликовали нейросеть для генерации изображений, которая имеет иерархическую структуру. Подход основан на архитектуре генеративно-состязательной сети. Нейросеть использует пространство признаков, которое было предобучено с помощью модели классификации. Фреймворк позволяет решать такие задачи, как:

  1. Генерация изображений, схожих с референсным изображением;
  2. Генерация реалистичных изображений по скетчам;
  3. Семантическое объединение двух изображений;
  4. Контроль за семантическим содержанием изображения с помощью модифицированного лейбла класса изображения

Архитектура модели

Семантическая генеративная пирамида (Semantic Generation Pyramid) — это иерархический фреймворк, который использует семантическую информацию из выученного пространства признаков. На основе признаков, которые модель извлекла из референсного изображения, она генерирует набор схожих изображений. Генератор работает параллельно с предобученной моделью классификации. На каждый блок классификатора есть блок в генераторе.

Визуализация составных частей модели

Архитектура генератора основывается на структуре class-conditioned GAN.

Оценка работы модели

Исследователи протестировали модель на различных реальных изображениях из датасета Places365 и опубликованных в интернете. Ниже видно сравнение изображений, которые генерирует модель на разных уровнях пирамиды.

Примеры сгенерированных изображений, которые отобрали с разных уровней модели
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt