Исследователи из Google опубликовали нейросеть для генерации изображений, которая имеет иерархическую структуру. Подход основан на архитектуре генеративно-состязательной сети. Нейросеть использует пространство признаков, которое было предобучено с помощью модели классификации. Фреймворк позволяет решать такие задачи, как:
- Генерация изображений, схожих с референсным изображением;
- Генерация реалистичных изображений по скетчам;
- Семантическое объединение двух изображений;
- Контроль за семантическим содержанием изображения с помощью модифицированного лейбла класса изображения
Архитектура модели
Семантическая генеративная пирамида (Semantic Generation Pyramid) — это иерархический фреймворк, который использует семантическую информацию из выученного пространства признаков. На основе признаков, которые модель извлекла из референсного изображения, она генерирует набор схожих изображений. Генератор работает параллельно с предобученной моделью классификации. На каждый блок классификатора есть блок в генераторе.
Архитектура генератора основывается на структуре class-conditioned GAN.
Оценка работы модели
Исследователи протестировали модель на различных реальных изображениях из датасета Places365 и опубликованных в интернете. Ниже видно сравнение изображений, которые генерирует модель на разных уровнях пирамиды.