fbpx
  • Семантическая пирамида для генерации изображений

    Исследователи из Google опубликовали нейросеть для генерации изображений, которая имеет иерархическую структуру. Подход основан на архитектуре генеративно-состязательной сети. Нейросеть использует пространство признаков, которое было предобучено с помощью модели классификации. Фреймворк позволяет решать такие задачи, как:

    1. Генерация изображений, схожих с референсным изображением;
    2. Генерация реалистичных изображений по скетчам;
    3. Семантическое объединение двух изображений;
    4. Контроль за семантическим содержанием изображения с помощью модифицированного лейбла класса изображения

    Архитектура модели

    Семантическая генеративная пирамида (Semantic Generation Pyramid) — это иерархический фреймворк, который использует семантическую информацию из выученного пространства признаков. На основе признаков, которые модель извлекла из референсного изображения, она генерирует набор схожих изображений. Генератор работает параллельно с предобученной моделью классификации. На каждый блок классификатора есть блок в генераторе.

    Визуализация составных частей модели

    Архитектура генератора основывается на структуре class-conditioned GAN.

    Оценка работы модели

    Исследователи протестировали модель на различных реальных изображениях из датасета Places365 и опубликованных в интернете. Ниже видно сравнение изображений, которые генерирует модель на разных уровнях пирамиды.

    Примеры сгенерированных изображений, которые отобрали с разных уровней модели