fbpx
  • Нейросеть от Google AI генерирует изображение по описанию

    Группа исследователей из Google Research предложила нейросетевой метод для генерации изображений из текстов. По результатам экспериментов, модель обходит state-of-the-art подходы.

    На чем обучали модель

    Исследователи разработали последовательную нейронную сеть, которую обучали на датасете Lozalized Narratives. Датасет является мультимодальным и содержит пары изображение и текстовое описание содержания изображения. Кроме того, в данных есть разметка положения курсора на изображении, которое соответствует текстовому описанию. Например, если на изображении и в текстовом описании есть яблоко, часть изображения с яблоком будет помечена.

    Использование датасета позволило модели выучиться предсказывать появление отдельных объектов в частях изображения. Это упрощает задачу распознавания объектов и их локализации на изображении, что также упрощает соотнесение распознанных объектов с описанием.

    Подробнее про модель

    Предложенная TReCS использует данные для оценки предсказанных семантических маск объектов, последующего соотнесения и генерации итогового изображения. 

    Пайплайн работы модели состоит из следующих этапов:

    1. Разметка последовательности (Sequence Tagging), где отдельная модель извлекает сущности из входного описания и предсказывает классы объектов;
    2. На втором этапе разметка курсора мыши и текстовое описание подаются на вход Semantic Mask Retrieval модели, которая предсказывает маску сегментации для каждого распознанного на прошлом этапе объекта;
    3. На итоговом этапе семантические маски соотносятся в пространстве и модель Mask-to-Image генерирует итоговое изображение
    Визуализация работы предложенного подхода

     Оценка работы модели

    Исследователи тестировали модель качественно и количественно на датасете LC-COCO и сравнивали с state-of-the-art. В качестве качественной оценки использовали опрос добровольцев. Добровольцев просили проранжировать по достоверности результаты конкурирующих подходов. Для количественной оценки использовали метрики FID (Frechet Inception Distance) и Inception Score (IS). По результатам экспериментов, модель обходит прошлые нейросетевые архитектуры по качеству генерируемых изображений.