fbpx
  • SPADE: исследователи улучшили генерацию изображений с помощью нового метода нормализации

    spade

    Исследователи из MIT, Berkley и NVIDIA представили метод пространственно-адаптивной нормализации (SPADE). Модель генерирует более детализированные изображения в сравнении с существующими архитектурами. В модели есть опция манипулирования стилем сгенерированного изображения.

    Зачем это нужно

    Предыдущие методы сразу подают на вход нейросети семантическую разметку изображения, которая затем проходит через конволюционные слои, нормализацию и нелинейность. Проблема такого нормализационного слоя в том, что из-за него теряется часть семантических данных об изображении. Эту проблему призван решить SPADE.

    Преимущества SPADE

    В популярных техниках нормализации (например, Batch Normalization) выход слоя с нормализацией поступает в предобученные родственные слои гамма и бета (см. изображение ниже). Изначально эти родственные слои подбираются случайно. Исследователи предлагают обучать их на семантической разметке. Получается, что на вход родственным слоям поступают векторы, обученные на разметке. Это схоже с другой техникой нормализации — Conditional Normalization.

    Отличие SPADE в том, что он пространственно адаптивный, что значит, что для каждой семантической категории (кот, дерево, небо и т.п.) используются разные bias слои и методы масштабирования. Благодаря своей особенности, модель восстанавливает потерянную на этапе нормализации информацию об объектах на картинке. Чтобы управлять стилем сгенерированных изображений, можно подать на вход модели случайный вектор.

    Особенности структуры SPADE в сравнении с Batch Norm

    Эксперименты на эффективность

    Исследователи провели сравнение работы CRN, SIMS, pix2pixHD и SPADE на 4-х сетах данных: COCO-Stuff, ADE20K, ADE20K-outdoor, Cityscapes. Все эти задачи касаются генерации изображения, аналогичного тому, что поступило на вход.

    В качестве метрик они смотрели на попиксельную точность (accu), mIoU, FID. SPADE показала более точные результаты (+~20% к точности существующих архитектур).

    Результаты экспериментов. Ours относится к SPADE
    Сравнение работы моделей на COCO-Stuff dataset