fbpx
  • StyleGAN2: улучшенная нейросеть для генерации лиц людей

    Архитектуры генеративно-состязательных сетей, которые основываются на стиле, выдают state-of-the-art результаты на задачах генерации изображений. Исследователи из Nvidia опубликовали обновленную версию нейросети StyleGAN, — StyleGAN2. StyleGAN2 генерирует более реалистичные изображения с меньшим количеством визуальных артефактов.

    В StyleGAN2 обновили архитектуру модели и методы обучения, чтобы минимизировать количество артефактов на генерируемых изображениях. Артефакты — это части изображения, которые снижают его реалистичность. Примером артефакта является размытость части изображения.

    В частности, исследователи добавили измененные нормализацию генератора, регуляризацию генератора и прогрессивное повышение (progressive growing). Добавление регуляризатора в генератор решает проблему качества изображений и позволяет распознать изображения, которые были сгенерированы определенной нейросетью.

    StyleGAN

    Предыдущей state-of-the-art архитектурой для генерации изображений являлась StyleGAN модель. Отличительной чертой модели является архитектура генератора. Генератор принимает на вход промежуточное представление входного объекта. Слои генератора проходят через адаптивную instance нормализацию (AdaIN). Несмотря на высокие результаты по сравнению с конкурирующими подходами, оригинальная StyleGAN генерирует изображения с заметными артефактами.

    StyleGAN2

    В генераторе StyleGAN2 были убраны излишние операции в начале, вынесли суммирование bias термов за пределы блока стиля. Обновленная архитектура позволяет заменить instance нормализацию (AdaIN) на “демодуляцию”. Операция демодуляции применяется к весам каждого сверточного слоя. 

    Сравнение составных частей StyleGAN (a-b) и StyleGAN2 (c-d)

    Оценка работы модели

    Для сравнения качества сгенерированных изображений исследователи использовали стандартные метрики: Frechet inception distance (FID) и Precision and Recall (P&R). Ниже видно, что внесенные в архитектуру StyleGAN изменения (B-F) улучшают качество изображений.

    Сравнение результатов базовой StyleGAN и ее модификаций на датасетах FFHQ и LSUN Car