Топ 10 нейросетей для генерации изображений по текстовому описанию. Рейтинг на март 2024

Какая нейросеть рисует изображения по словам с максимально качественно и с минимальными временными затратами? Мы провели исследование, чтобы выяснить, какие нейросети для генерации изображений из текста лучшие в создании фотореалистичных изображений, чтобы вы могли сделать осознанный выбор. Рейтинг основан на тестах генерации фотографий с использованием одинаковых текстовых подсказок (промптов). Подробнее о том что такое промпт, как их составлять и примеры текстов, читайте в разделе Как писать промпты.

Рейтинг нейросетей для генерации изображений

Основные факторы выставления оценок: фотореалистичность, детализация, наличие артефактов, соответствие текстовому описанию, стоимость. Рейтинг нейронных сетей актуален на сентябрь 2023 года, для его составления проверили, как нейросети рисуют картинки по словам с использованием одинаковых простых текстовых описаний:

a photo of a hispanic woman in the kitchen in front of a table (фотография латиноамериканки на кухне перед столом);
a photo of a hispanic woman in the kitchen in front of a table, she has one hand slightly lifted near her face and the other one on the table (фотография латиноамериканки на кухне перед столом. Одна рука слегка поднята у её лица, а другая лежит на столе).

Описание лучше писать на английском языке, но в нашем рейтинге представлены нейросети от Сбера и Яндекса для генерации изображений, для них были использованы запросы на русском языке. Оказалось, что результат ничем не отличается от написания на английском.

Stable Diffusion

Stable Diffusion XL — нейросеть для генерации изображений онлайн от StabilityAI, которой можно пользоваться в веб-приложении Clipdrop. По каждому запросу генерируется 4 изображения, каждое из которых можно доработать с помощью нейросетей: создать еще несколько вариаций понравившегося изображения, изменить освещение, обрезать, дорисовать по краям, удалить ненужные объекты и убрать фон.

Stable Diffusion часто обновляется, благодаря чему качество постоянно растет. Изображения получается фотореалистичными, глубокого детализированными, на 1 из 4 вариантов обычно отсутствуют заметные глазу артефакты. Нейросеть корректно следует словам из запроса, учитывая все пожелания пользователей. Минусы — изображения гораздо больше похожи на стоковые, чем у Midjourney, есть водяной знак, который, правда, несложно обрезать.

Каждый из вас может создать свое приложение на основе нейросети Stable Diffusion или запустить ее локально — открытый код доступен на Github. Так как у Midjourney нет открытого кода и даже официального API, то возникают подозрения, что многочисленные телеграмм-боты Midjourney на самом деле работают на базе Stable Diffusion, и к первой никакого отношения не имеют. Просто Midjourney немного известнее, и проще собрать аудиторию, используя в названии бренд лидера рынка. С выходом новых версий Stable Diffusion 1.0 этот тренд изменился в обратную сторону:

По гамбургскому счету, только первые два участника рейтинга справились с задачей генерации фотореалистичного изображения, соответствующего описанию.

Midjourney

Midjourney — самая популярная нейронная сеть для генерации изображений, отличающаяся высоким качеством и детализацией. Бесплатной версии или пробного периода не предусматривается, для начала работы нужно оформить подписку, стоимость которой начинается от $10 в месяц, но оно того стоит. Midjourney генерирует настолько фотореалистичные изображения, что их на первый взгляд их практически невозможно отличить от реальной фотографии.

Для начала использования необходимо создать аккаунт в Discord, оплатить там же подписку, отправить в чат команду /imagine и написать запрос. Примерно через 10 секунд вы получите 4 изображения низкого разрешения, если одно из них вам понравилось, увеличьте его разрешение до 1024×1024 или сгенерируйте еще четыре вариации картинки, в этом случае нейронная сеть заменит часть атрибутов изображения, сохраняя общую концепцию. Новая функция Vary позволяет выделить только часть изображения, которую нужно скорректировать.

Neural Love 1.02

В онлайн приложении Neural Love вы сможете сгенерировать неограниченное количество изображений, пробуя разные текстовые описания. На генерацию уходит примерно 20 секунд, вы получаете 4 хорошо проработанных изображения: точность следования текстовой подсказке, глубина и детализация не уступает лидерам. Нейросеть NL 1.01 — собственная разработка компании, она рисует по словам, дорисовывает изображения, увеличивает разрешение, позволяет создать аватар по фотографии и создать больше вариаций одного изображения. Из минусов стоит отметить не дотягивающую до лидеров фотореалистичность объектов на заднем плане и низкое качество изображения, которое придется увеличить за кредиты. Бесплатно дается 5 кредитов.

Интерфейс веб-приложения отлично проработан. После генерации изображения на выбор предлагаются дальнейшие варианты доработки изображения.

Kandinsky 2.2 — text-to-image нейронная сеть от Cбера

Бесплатная нейросеть Kandinsky 2.2 от Сбера и команды FusionBrain из подразделения Sberdevices по каждому запросу генерирует одно изображение, запрос можно повторить неограниченное количество раз. Работает быстро — примерно 5 секунд на каждое изображение. Есть функция ластик, которая позволяет скорректировать часть картинки, также можно задать определенный стиль.

Изображение высокодетализировано, артефакты не бросаются в глаза, работает быстро. Минусы: на реалистичную фотографию это изображение не очень похоже. После 15 попыток генерации так и не удалось заставить нейросеть положить вторую руку женщины на стол, а картинки начинают повторятся.

Picsart AI

PicsArt — приложение с наиболее проработанным пользовательским интерфейсом, доступно на мобильных устройствах для iOS и Android и онлайн в веб-версии. В приложении есть бесплатный пробный период 7 дней, после которого необходимо оформить подписку стоимостью $13 в месяц. По запросу генерируется 4 изображения за 10 секунд, понравившееся изображение можно доработать и отретушировать, обрезать под нужный формат в один клик — имеются шаблоны для популярных соцсетей и часто используемые размеры баннеров, изменить контраст, тон, освещение, увеличить разрешение, добавить эффекты и удалить ненужные объекты.

Качество изображений уступает лидерам в фотореалистичности и детализации, но нейросеть корректно следует текстовой подсказке и генерирует мало артефактов. Отлично подойдет для создания постов для соцсетей.

Шедеврум — нейросеть для генерации картинок от Яндекса

Нейронная сеть Шедеврум от Яндекса вышла в свет в апреле 2023 года и сейчас находится на стадии прототипа. Пользование приложением абсолютно бесплатно, что говорит о том, что оно еще находится в стадии бета-тестирования. Нейросеть встроена в приложения для iOS и Android, обладающих минимальным функционалом: интерфейс проработан крайне слабо — нет удобного способа сохранить изображение, доработать его невозможно вовсе. Доступно только две функции: генерация картинки по текстовой подсказке, и лента с изображениями, созданными другими пользователями.

Изображение, сгенерированное Шедеврум, не отличается фотореалистичностью, а некоторые предметы морфируются неправдоподобным образом. Нейросеть хорошо подойдет для создания мультяшных и рисованных изображений, концепт арта, иллюстраций.

Wombo Dream

Wombo Dream доступна для iOS, Android и в веб-приложении. В бесплатной версии генерирует одно изображение, можно выбрать стиль из предложенных и скачать готовую картинку.

Качество изображений среднее: нейросеть следует инструкциям, но выдает низкую детализацию и далеко от фотореалистичности.

Dall-E — нейронная сеть от OpenAI

Нейросеть Dall-E от OpenAI наделала много шума в момент своего появления в 2022 году. Все ожидали успеха, аналогичного появившемуся спустя год ChatGPT, но этого не случилось: качество, детализация, композиция генерируемых изображений оставляет желать лучшего. При этом за каждый запрос на генерацию изображения необходимо заплатить $0,13 — очень высокая цена за такое низкое качество. Создается 4 варианта изображения, понравившееся можно дополнительно обработать — убрать объекты, выделив их кистью, создать вариации, дорисовать по краям. Каждый такой запрос на доработку картинки оплачивается отдельно.

На картинке видно, что глаза человека смотрят в разные стороны, скрещенные пальцы представляет собой месиво, предметы на заднем плане не соответствуют перспективе, изображение похоже на стоковое, неживое. Отметим, что Dall-e лучше справляется с созданием концепт артов и иллюстраций, но в этом обзоре другой промпт. Возможно, команда OpenAI решила сфокусироваться на одном продукте — ChatGPT, и мы их за это не осуждаем. Однако многомиллиардные инвестиции от Microsoft способны помочь набрать отдельную команду для доработки Dall-e и обеспечить ее вычислительными ресурсами.

Artbreeder

Artbreeder специализируется на смешивании атрибутов двух разных изображений, но функция генерации также представлена в приложении. В бесплатной версии вы получите 10 генераций, после чего придется перейти на платной версию (от $8,99). По промпту генерируется 2 изображения, приложение сразу предлагает несколько вариантов, как можно разнообразить запрос.

Разрешение изображения низкое — 512×512, понимание подсказки и детализация не впечатляет, нередки и артефакты, но спустя несколько попыток нейросеть все же выдает приемлемое изображение.

ChainGPT — создание коллекций NFT

Вне рейтинга интересный проект ChainGPT, который генерирует NFT-коллекции изображений при помощи нейросети. Для каждого промпта генерируется плитка из 8 изображений.

Как написать качественный промпт для генерации изображения нейросетью

Правильно написанное техническое задание — это наполовину сделанное задание. В случае с нейросетями это правильно доведено до абсолюта. Теперь от человека требуется только задействовать свое воображение — представить конечный результат и правильно его сформулировать. Нейросеть сделает все остальное.

Промпт — это текстовый запрос к нейросети на создание изображения. В нем содержится техническое задание: описаны ключевые особенности изображения, которое вы хотите получить на выходе. Для написания промпта, важно следовать нескольким советам:

Описать содержание изображения, указать его тип (например, фотография, 3D-рендеринг, эскиз, иллюстрация).
Дать описание темы: это может быть объект, животное, человек, абстрактная концепция или эмоция.
Добавить детали, такие как цвета, формы, размеры, текстуры.
Определить форму и стиль картинки, возможно, указав ключевые слова типа «абстрактный», «минималистичный» или «сюрреалистичный».
Задать композицию, включая разрешение, стиль освещения, соотношение сторон и ракурс камеры.

При этом нейросеть сгенерирует изображение, даже если вы укажете только одно слово, но результат вряд ли вас устроит. Старайтесь описывать результаты как можно подробнее, пробуйте перевести промпт на английский язык в Google переводчике или в ChatGPT — это может значительно улучшить результат.

Примеры запросов:

Иллюстрация синей розовой птицы с пушистыми перьями в стиле импрессионизма с рассеянным светом.
Фотография художника в рабочей атмосфере, одетого в фартук, смотрящего на свою палитру.
3D-рендеринг улицы города с высокими небоскребами и летящими машинами в стиле киберпанк.
Иллюстрация веселых мультяшных животных, играющих в парке, с карамельным цветовым акцентом.
Фотография заката на пляже с одинокой фигурой, стоящей у воды, в стиле меланхолической минимализма.
3D-рендеринг будущего города с висячими садами и летающими транспортными средствами в стиле научной фантастики.
Иллюстрация старого заброшенного замка в горах в стиле реализма с холодными серыми оттенками.
Фотография цветущего поля под ярким солнцем с пастельными цветами и мягким освещением.
3D-рендеринг футуристического механического ока с зубчатыми колесами и тонкими металлическими проводами в стиле стимпанк.
Иллюстрация мистического леса с пылающими фонарями и загадочной атмосферой в стиле фэнтези.