Stable Doodle: нейросеть превращает наброски в рисунки с высокой детализацией

Stability AI представила Stable Doodle — нейросеть, которая превращает наброски в рисунки с высокой детализацией и предлагает на выбор несколько стилей. Для работы с инструментом нужно создать набросок изображения, ввести краткое описание финального результата (промт), выбрать стиль, после чего нейросеть сгенерирует 3 варианта изображения за считанные секунды. Если результат не устроил, попытку можно повторить неограниченное число раз. На выбор доступны несколько стилей: реализм, пиксель-арт, кинематографичный, аниме, фэнтази, комикс и другие. Stable Doodle пополнил зоопарк моделей для обработки изображений Clipdrop.

Как превратить наброски в рисунки с предсказуемым результатом

Нейросеть превращает наброски в рисунки с предсказуемым результатом в том случае, если набросок включает полезную информацию о форме, ключевых точках и объектах на изображении. Наибольшую пользу Stable Doodle принесет в том случае, если на вход подается детализированный набросок, краткая подсказка, и указывается стиль результирующего изображения:

stable doodle image — Подсказка: Living room, ‘Comic Book’ Style

Если подать на вход элементарный набросок и подсказку, то результат будет слабо отличаться от результатов работы основной модели — Stable Diffusion SDXL, в которой на вход подается только подсказка. Примеры результатов, когда нейросеть рисует по наброску и без наброска:

нейросеть рисует по наброску — Результат генерации Stable Doodle. Набросок и подсказка: «A small wooden house near the lake»

stable diffusion SDXL result — Результат генерации модели Stable Diffusion без наброска. Подсказка: «A small wooden house near the lake»

Архитектура модели

Stable Doodle объединяет в себе модель скрытой диффузии Stable Diffusion XL с другой сетью — T2I-Adapter, которая позволяет подавать на вход дополнительные условия для регулирования финального результата. Адаптер разработан в компании Tencent, он подключается к любой text-to-image модели, обеспечивая более точный контроль над процессом генерации изображений.

T2I-Adapter позволяет подать дополнительные условия на вход модели Stable Diffusion SDXL: наброски, карты сегментации или ключевые позы. Оригинальная архитектура text-to-image модели при этом остается неизменной.

В случае со Stable Doodle адаптер предоставляет дополнительные указания Stable Diffusion 0.9, позволяя ей принимать на вход контуры набросков, совмещать их с информацией из текстовой подсказки, и генерировать детализированный рисунок.