Нейросеть обучается генерировать изображения за несколько часов

Легковесная GAN — это генеративно-состязательная нейросеть, которая выучивается генерировать изображения в разрешении 1024×1024 за несколько часов на одной RTX-2080 GPU. При этом модель выдает стабильные по качеству результаты, даже если обучалась на менее чем 100 примерах. Ключевая особенность модели — это дополнительный модуль в генераторе и автокодирование признаков в дискриминаторе.

Зачем это нужно 

Обучение генеративно-состязательных сетей на изображениях в высоком качестве обычно требует крупномасштабных GPU кластеров и большого набора обучающих данных. В каких-то случаях такие ресурсы недоступны. Исследователи предлагают генеративную модель, которая выдает стабильные результаты при меньших требованиях к вычислительным ресурсам и к тренировочной выборке.

Подробнее про особенности архитектуры

Два основных нововведения в архитектуре модели — это модуль skip-layer channel-wise excitation (SLE) и дискриминатор, которые обучается в режиме self-supervised discriminator как кодировщик признаков. SLE модуль отвечает за низкоуровневые активации и проверяет, как каналы отвечают на высокоуровневые карты признаков. Главная задача модуля — обеспечивать более устойчивый поток градиентов. Это приводит к ускорению сходимости модели.

Тестирование модели

Исследователи проверяли модель на 13 датасетах с изображениями. В сравнении с state-of-the-art генеративной StyleGAN2 предложенный подход выдает более фотореалистичные результаты при ограниченных тренировочных данных и вычислительных ресурсах.

Пример сгенерированных изображений. Модель обучалась на одной RTX 2080-Ti GPU на 1000 обучающих примерах изображений природы
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt