Токенизатор TA-TiTok от Bydedance обновил бенчмарки в генерации изображений при обучении на открытых данных

ta-titok and maskgen research

ByteDance и POSTECH представили токенизатор TA-TiTok (Text-Aware Transformer-based 1-Dimensional Tokenizer), новый подход к созданию доступных и эффективных text-to-image моделей. Маскированная генеративная модель MaskGen с токенизотором TA-TiTok достигла SOTA для text-to-image моделей, обучаясь только открытых данных. Исследователи опубликовали код и веса модели на Github.

Технические детали TA-TiTok

TA-TiTok — это токенизатор, который отвечает за преобразование изображений в компактные представления (токены). Его основная цель — эффективно преобразовывать изображения в последовательности токенов, которые могут обрабатываться генеративными моделями.

TA-TiTok уникальным образом интегрирует текстовую информацию на этапе детокенизации, ускоряя сходимость и улучшая производительность. TA-TiTok также выигрывает от упрощенного, но эффективного одноэтапного процесса обучения, устраняя необходимость в сложной двухэтапной дистилляции, используемой в предыдущих одномерных токенизаторах. Такая архитектура обеспечивает беспрепятственное масштабирование на большие наборы данных.
ti-titok tokenizer

Исследователи представила три фундаментальных улучшения оригинального фреймворка TiTok:

  1. Оптимизированный процесс обучения. Исследователи заменили традиционное двухэтапное обучение одноэтапным.
  2. Поддержка двух типов токенов. TA-TiTok реализует как дискретные (VQ), так и непрерывные (KL) форматы токенов:
  • Векторно-квантованный (VQ) вариант обеспечивает прямое отображение в записи кодовой книги
  • Вариант с ключевыми потерями (KL) позволяет использовать непрерывное латентное пространство. Эта гибкость позволяет  оптимизироваться под конкретные задачи и требования к производительности.
  1. Обработка с учетом текста. Интегрируя текстовый энкодер CLIP на этапе детокенизации, TA-TiTok достигает лучшего семантического соответствия между генерируемыми изображениями и текстовыми описаниями.

Модель MaskGen

MaskGen — это генеративная модель, которая использует токенизацию TA-TiTok для преобразования текста в изображение. Она принимает токены, созданные TA-TiTok, вместе с промтом и создает новые изображения. MaskGen представлена в разных размерах (MaskGen-L с 568 млн параметров и MaskGen-XL с 1,1 млрд параметров) и может работать как с дискретными, так и с непрерывными токенами от TA-TiTok.

Реализация на открытых данных

Система обучена исключительно на публичных датасетах: DataComp, CC12M, LAION-aesthetic, JourneyDB, DALLE3-1M.

Исследователи использовали критерии фильтрации для оценки качества данных, включая требования к разрешению и оценки эстетических качеств изображения.

Количественные показатели производительности

Zero-Shot Text-to-Image Generation Results on GenEval. Comparison of MaskGen with state-of-the-art open-weight models
Результаты генерации текста в изображение Zero-Shot на MJHQ-30K. Сравнение MaskGen с современными моделями с открытым весом
Zero-Shot Text-to-Image Generation Results on GenEval. Comparison of MaskGen with state-of-the-art open-weight models.
Результаты генерации текста в изображение Zero-Shot на GenEval. Сравнение MaskGen с современными моделями с открытым весом.

Сравнение метрик производительности:

  • MaskGen-L (568 млн параметров) достигает показателя FID 7,74 на MJHQ-30K, превосходя Show-o (14,99) при этом предлагая в 30,3 раза более быстрый инференс
  • Система требует всего 2% времени обучения по сравнению с SD-2.1 при достижении лучшей производительности
  • MaskGen-XL (1,1 млрд параметров) достигает показателей FID 7,51 и 6,53 на MJHQ-30K при использовании дискретных и непрерывных токенов соответственно.

Вычислительные требования

Необходимые вычислительные затраты для работы модели:

  • Время обучения: 20,0 8-A100 дней для MaskGen-L и 35,0 8-A100 дней для MaskGen-XL
  • Размеры батча: 4096 для дискретных токенов и 2048 для непрерывных токенов
  • Скорость обучения и параметры оптимизации полностью детализированы для воспроизведения

MaskGen представляет собой одну из первых масочных генеративных моделей с открытым весом и открытыми данными, достигающую производительности, сопоставимой с современными моделями.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt