Нейросеть от Google AI генерирует изображение по описанию

Группа исследователей из Google Research предложила нейросетевой метод для генерации изображений из текстов. По результатам экспериментов, модель обходит state-of-the-art подходы.

На чем обучали модель

Исследователи разработали последовательную нейронную сеть, которую обучали на датасете Lozalized Narratives. Датасет является мультимодальным и содержит пары изображение и текстовое описание содержания изображения. Кроме того, в данных есть разметка положения курсора на изображении, которое соответствует текстовому описанию. Например, если на изображении и в текстовом описании есть яблоко, часть изображения с яблоком будет помечена.

Использование датасета позволило модели выучиться предсказывать появление отдельных объектов в частях изображения. Это упрощает задачу распознавания объектов и их локализации на изображении, что также упрощает соотнесение распознанных объектов с описанием.

Подробнее про модель

Предложенная TReCS использует данные для оценки предсказанных семантических маск объектов, последующего соотнесения и генерации итогового изображения.

Пайплайн работы модели состоит из следующих этапов:

Разметка последовательности (Sequence Tagging), где отдельная модель извлекает сущности из входного описания и предсказывает классы объектов;
На втором этапе разметка курсора мыши и текстовое описание подаются на вход Semantic Mask Retrieval модели, которая предсказывает маску сегментации для каждого распознанного на прошлом этапе объекта;
На итоговом этапе семантические маски соотносятся в пространстве и модель Mask-to-Image генерирует итоговое изображение

Визуализация работы предложенного подхода

Оценка работы модели

Исследователи тестировали модель качественно и количественно на датасете LC-COCO и сравнивали с state-of-the-art. В качестве качественной оценки использовали опрос добровольцев. Добровольцев просили проранжировать по достоверности результаты конкурирующих подходов. Для количественной оценки использовали метрики FID (Frechet Inception Distance) и Inception Score (IS). По результатам экспериментов, модель обходит прошлые нейросетевые архитектуры по качеству генерируемых изображений.