TransGAN — GAN-модель, в которой генератор и дискриминатор состоят из двух Transformer-архитектур. Традиционно в GAN архитектуре используются свертки. В TransGAN свертки заменили на Transformer. Код проекта доступен в открытом репозитории на GitHub.
Transformer для задач компьютерного зрения
Успех Transformer-архитектур в решении задач обработки естественного языка побуждает интерес к использованию таких моделей в применении к задачам компьютерного зрения, как классификация, распознавание и сегментация. Исследователи проверяют, может ли Transformer заменить GAN-архитектуру в задачах компьютерного зрения.
Подробнее про модель
Исследователи разработали GAN, которая не использует свертки и основывается исключительно на Transformer-архитектурах. Базовая TransGAN состоит из следующих частей:
- Генератора, который прогрессивно улучшает разрешение признаков и одновременно уменьшает размер эмбеддингов;
- Дискриминатора, который работает на частях изображения
Обе части модели основаны на Transformer. По результатам экспериментов, модель выдает сравнимые с state-of-the-art GAN-моделями результаты. На датасете STL-10 TransGAN обходит предыдущие модели с оценками IS в 10.10 и FID в 25.32.