TransGAN: две Transformer модели как одна GAN

Визуализация составных частей модели

TransGAN — GAN-модель, в которой генератор и дискриминатор состоят из двух Transformer-архитектур. Традиционно в GAN архитектуре используются свертки. В TransGAN свертки заменили на Transformer. Код проекта доступен в открытом репозитории на GitHub.

Transformer для задач компьютерного зрения

Успех Transformer-архитектур в решении задач обработки естественного языка побуждает интерес к использованию таких моделей в применении к задачам компьютерного зрения, как классификация, распознавание и сегментация. Исследователи проверяют, может ли Transformer заменить GAN-архитектуру в задачах компьютерного зрения. 

Подробнее про модель

Исследователи разработали GAN, которая не использует свертки и основывается исключительно на Transformer-архитектурах. Базовая TransGAN состоит из следующих частей:

  • Генератора, который прогрессивно улучшает разрешение признаков и одновременно уменьшает размер эмбеддингов;
  • Дискриминатора, который работает на частях изображения

Обе части модели основаны на Transformer. По результатам экспериментов, модель выдает сравнимые с state-of-the-art GAN-моделями результаты. На датасете STL-10 TransGAN обходит предыдущие модели с оценками IS в 10.10 и FID в 25.32.

Примеры изображений, которые генерирует TransGAN, обученная на разных датасетах
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt