Легковесная GAN — это генеративно-состязательная нейросеть, которая выучивается генерировать изображения в разрешении 1024×1024 за несколько часов на одной RTX-2080 GPU. При этом модель выдает стабильные по качеству результаты, даже если обучалась на менее чем 100 примерах. Ключевая особенность модели — это дополнительный модуль в генераторе и автокодирование признаков в дискриминаторе.
Зачем это нужно
Обучение генеративно-состязательных сетей на изображениях в высоком качестве обычно требует крупномасштабных GPU кластеров и большого набора обучающих данных. В каких-то случаях такие ресурсы недоступны. Исследователи предлагают генеративную модель, которая выдает стабильные результаты при меньших требованиях к вычислительным ресурсам и к тренировочной выборке.
Подробнее про особенности архитектуры
Два основных нововведения в архитектуре модели — это модуль skip-layer channel-wise excitation (SLE) и дискриминатор, которые обучается в режиме self-supervised discriminator как кодировщик признаков. SLE модуль отвечает за низкоуровневые активации и проверяет, как каналы отвечают на высокоуровневые карты признаков. Главная задача модуля — обеспечивать более устойчивый поток градиентов. Это приводит к ускорению сходимости модели.
Тестирование модели
Исследователи проверяли модель на 13 датасетах с изображениями. В сравнении с state-of-the-art генеративной StyleGAN2 предложенный подход выдает более фотореалистичные результаты при ограниченных тренировочных данных и вычислительных ресурсах.