fbpx
  • TransGAN: две Transformer модели как одна GAN

    Визуализация составных частей модели

    TransGANGAN-модель, в которой генератор и дискриминатор состоят из двух Transformer-архитектур. Традиционно в GAN архитектуре используются свертки. В TransGAN свертки заменили на Transformer. Код проекта доступен в открытом репозитории на GitHub.

    Transformer для задач компьютерного зрения

    Успех Transformer-архитектур в решении задач обработки естественного языка побуждает интерес к использованию таких моделей в применении к задачам компьютерного зрения, как классификация, распознавание и сегментация. Исследователи проверяют, может ли Transformer заменить GAN-архитектуру в задачах компьютерного зрения. 

    Подробнее про модель

    Исследователи разработали GAN, которая не использует свертки и основывается исключительно на Transformer-архитектурах. Базовая TransGAN состоит из следующих частей:

    • Генератора, который прогрессивно улучшает разрешение признаков и одновременно уменьшает размер эмбеддингов;
    • Дискриминатора, который работает на частях изображения

    Обе части модели основаны на Transformer. По результатам экспериментов, модель выдает сравнимые с state-of-the-art GAN-моделями результаты. На датасете STL-10 TransGAN обходит предыдущие модели с оценками IS в 10.10 и FID в 25.32.

    Примеры изображений, которые генерирует TransGAN, обученная на разных датасетах
    Подписаться
    Уведомить о
    guest
    0 Comments
    Межтекстовые Отзывы
    Посмотреть все комментарии