DALL-E: генерация изображений по описанию от OpenAI

OpenAI опубликовали DALL-E — нейросетевую модель для генерации изображения по текстовому описанию. Архитектура DALL-E основывается на GPT-3, Transformer генеративной модели от OpenAI. Модель принимает на вход предложение с описанием целевого изображения и референсное изображение. На выходе модель отдаёт сгенерированное в соответствии с описанием изображение.

Подробнее про модель

DALL-E — это языковая модель, которая одновременно принимает на вход текстовое описание и изображение в формате последовательности токенов. Модель последовательно генерирует токены один за другим. Согласно исследователям, идея основывалась на успехе GPT-3 для задач обработки естественного языка и на успехе ImageGPT для задач компьютерного зрения.

dall-e openai — Пример сгенерированных изображений

Исследователи проанализировали возможности модели генерировать реалистичные изображения с учётом описания. Модель тестировали на таких задачах, как рисование нескольких объектов, выучивание перспективы и 3D, разделение внутреннего и внешнего, контекстных деталей. Внизу — часть примеров того, какие изображения модель генерирует по запросу.

Новая модель показывает, что Transformer модели находят применение в задачах перевода текста в изображение. DALL-E состояла из 12 миллиардов параметров и выучивала корреляции между визуальными частями в языке.

Детали архитектуры и экспериментов доступны в официальном репозитории на GitHub.