DALL-E 2: text-to-image модель OpenAI

OpenAI представила новую версию модели преобразования текста в изображение DALL-E. По сравнению с первой версией, DALL-E 2 генерирует изображения в более высоком качестве с меньшей задержкой, а также позволяет редактировать уже существующие изображения.

Одна из новых функций DALL-E 2, inpainting, позволяет пользователю выбрать область на существующем изображении и сделать запрос модели на ее редактирование. Например, можно заменить одну картину, висящую на стене, другой или добавить вазу с цветами на журнальный столик. При этом модель учитывает условия освещенности объектов. Другая функция, variations, генерирует изображения, похожие на исходное.

DALL-E 2 генерирует изображения с разрешением 1024×1024 пикселей, что в 16 раз превышает разрешение в предыдущей версии модели. Модель основана на CLIP, системе компьютерного зрения, которую OpenAI также анонсировала в прошлом году.

Полная модель DALL-E не была опубликована в открытом доступе, но сторонние разработчики за последний год усовершенствовали свои собственные инструменты, имитирующие некоторые из ее функций. Одним из самых популярных основных приложений является мобильное приложение Wombo’s Dream, которое генерирует изображения по описанию в различных художественных стилях.

При разработке новой версии OpenAI внедрила встроенные средства защиты. В частности, модель была обучена на данных, в которых были отсеяны нежелательные материалы. В ближайшее время OpenAI планирует сделать модель доступной для использования в сторонних приложениях.