TransGAN: две Transformer модели как одна GAN

TransGAN — GAN-модель, в которой генератор и дискриминатор состоят из двух Transformer-архитектур. Традиционно в GAN архитектуре используются свертки. В TransGAN свертки заменили на Transformer. Код проекта доступен в открытом репозитории на GitHub.

Transformer для задач компьютерного зрения

Успех Transformer-архитектур в решении задач обработки естественного языка побуждает интерес к использованию таких моделей в применении к задачам компьютерного зрения, как классификация, распознавание и сегментация. Исследователи проверяют, может ли Transformer заменить GAN-архитектуру в задачах компьютерного зрения.

Подробнее про модель

Исследователи разработали GAN, которая не использует свертки и основывается исключительно на Transformer-архитектурах. Базовая TransGAN состоит из следующих частей:

Генератора, который прогрессивно улучшает разрешение признаков и одновременно уменьшает размер эмбеддингов;
Дискриминатора, который работает на частях изображения

Обе части модели основаны на Transformer. По результатам экспериментов, модель выдает сравнимые с state-of-the-art GAN-моделями результаты. На датасете STL-10 TransGAN обходит предыдущие модели с оценками IS в 10.10 и FID в 25.32.