Генерация изображений / Нейросети и глубокое обучение

Mistral Agents API: фреймворк для создания AI-агентов с веб-поиском, генерирующих код и изображения

28 мая 2025

Mistral Agents API: фреймворк для создания AI-агентов с веб-поиском, генерирующих код и изображения

Французский стартап Mistral AI представил Agents API — фреймворк для создания автономных AI-агентов со встроенными коннекторами, постоянной памятью и возможностями оркестрации. Разработчики могут создавать неограниченнное число агентов и выстраивать пайплайны…

Токенизатор TA-TiTok от Bydedance обновил бенчмарки в генерации изображений при обучении на открытых данных

19 января 2025

Токенизатор TA-TiTok от Bydedance обновил бенчмарки в генерации изображений при обучении на открытых данных

ByteDance и POSTECH представили токенизатор TA-TiTok (Text-Aware Transformer-based 1-Dimensional Tokenizer), новый подход к созданию доступных и эффективных text-to-image моделей. Маскированная генеративная модель MaskGen с токенизотором TA-TiTok достигла SOTA для text-to-image…

ArtAug: мультиагентный открытый фреймворк для улучшения генерации изображений

18 декабря 2024

ArtAug: мультиагентный открытый фреймворк для улучшения генерации изображений

Исследователи Alibaba Group представили фреймворк ArtAug для улучшения качества генерации изображений из текста без дополнительных вычислительных затрат на этапе инференса, используя взаимодействие между генеративными и понимающими (understanding) моделями. Архитектура ArtAug…

Vinteo AI — нейросеть, которая создает реалистичные визуализации товаров за 2 минуты

7 декабря 2024

Vinteo AI - нейросеть, которая создает реалистичные визуализации товаров за пару минут

Vinteo AI — нейросеть, которая создает реалистичные визуализации товаров за 2 минуты

Vinteo AI — SAAS на основе ИИ специализирующуюся на разработке решений в области искусственного интеллекта для визуальной презентации товаров. Нейросеть обеспечивает оперативное и экономически рациональное создание фотореалистичных изображений товаров в…

Ideogram 2.0: новая модель генерирует текст на изображениях с непревзойденной точностью

22 августа 2024

Ideogram 2.0: новая модель генерирует текст на изображениях с непревзойденной точностью

Ideogram выпустила обновленную text-to-image модель Ideogram 2.0. Обученная с нуля, Ideogram 2.0 субъективно значительно превосходит конкурентов в точности отображения текста (примеры в статье). Новая бета-версия API позволяет разработчикам бесшовно интегрировать…

CRAM: новая аппаратная архитектура снижает энергопотребление ИИ в 1000 раз

30 июля 2024

CRAM: новая аппаратная архитектура снижает энергопотребление ИИ в 1000 раз

Исследователи из Университета Миннесоты Твин-Ситис представили архитектуру аппаратного обеспечения Computational Random-Access Memory (CRAM), которая призвана трансформировать вычисления в области ИИ, резко сократив энергопотребление. CRAM способен сократить использование энергии ИИ в…

Apple MGIE: мультимодальные модели для редактирования изображений

12 февраля 2024

Apple MGIE: мультимодальные модели для редактирования изображений

Apple совместно с Калифорнийским университетом разработала open-source модель MGIE для редактирования изображений по текстовому запросу. Модель решает различные классы задач, включая модификацию изображений в стиле Photoshop, глобальную оптимизацию фотографий и…

Google MobileDiffusion: генерация изображений на мобильных устройствах

4 февраля 2024

Google MobileDiffusion: генерация изображений на мобильных устройствах

Google представила MobileDiffusion – модель преобразования текста в изображение в реальном времени, полностью работающую на мобильных устройствах. На Android- и iOS-устройствах с процессорами последних поколений генерация изображения с разрешением 512×512…

LCM-LoRA: генерация изображений в реальном времени

19 ноября 2023

LCM-LoRA: генерация изображений в реальном времени

Исследователи Университета Цинхуа разработали алгоритм LCM-LoRA, позволяющий в реальном времени генерировать изображения по текстовому описанию или наброску. Наиболее популярным text-to-image моделям, таким как Stable Diffusion, Midjourney и DALLE-3, требуется от…

Google добавила в поиск генерацию изображений

15 октября 2023

Google добавила в поиск генерацию изображений

Google объявила о внедрении в поиск генерации изображений по описанию и ряда других AI-функций. Инструмент основан на модели Imagen и позволяет несколько раз уточнять запрос для получения требуемого результата. На…

Dall-E 3 выйдет в начале октября. OpenAI анонсировала интеграцию нейросети с ChatGPT

20 сентября 2023

Dall-E 3 выйдет в начале октября. OpenAI анонсировала интеграцию нейросети с ChatGPT

OpenAI объявила о выходе Dall-E 3 в интерфейсе ChatGPT в начале октября. В анонсе исследователи рассказали, что новая версия нейросети для генерации изображений значительно превосходит Dall-E-2 по нескольким критериям. Dall-E…

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

14 сентября 2023

Würstchen: открытая text-to-image модель, которая обучается в 16 раз быстрее Stable Diffusion 1.4

Würstchen — открытая text-to-image модель, которая генерирует изображения быстрее, чем диффузные модели, такие как Stable Diffusion, и при этом потребляет гораздо меньше памяти, достигая сравнимых результатов. Подход основан на пайплайне…

PhotoGuard: защита изображений от изменения генеративным моделями

5 сентября 2023

PhotoGuard: защита изображений от изменения генеративным моделями

Исследователи MIT представили PhotoGuard – алгоритм защиты изображений от несанкционированных изменений генеративными моделями, позволяющий гарантировать подлинность изображений. Широкое распространение генеративных моделей (таких, как DALL-E и Midjourney) сделало простым даже для…

GigaGAN: open source модель генерирует изображения размером 512px за 0,13 секунды

1 сентября 2023

GigaGAN: open source модель генерирует изображения размером 512px за 0,13 секунды

GigaGAN — open source модель с 1 миллиардом параметров, которая генерирует изображения размером 512×512 пикселей за 0,13 секунды, что на порядки быстрее, чем диффузные и авторегрессионные модели. Кроме того, исследователи…

Топ 10 нейросетей для генерации изображений по текстовому описанию. Рейтинг на март 2024

28 августа 2023

Топ 10 нейросетей для генерации изображений по текстовому описанию. Рейтинг на март 2024

Какая нейросеть рисует изображения по словам с максимально качественно и с минимальными временными затратами? Мы провели исследование, чтобы выяснить, какие нейросети для генерации изображений из текста лучшие в создании фотореалистичных…

Stability AI представила модель Stable Diffusion SDXL 1.0

26 июля 2023

Stability AI представила модель Stable Diffusion SDXL 1.0

Компания Stability AI сегодня объявила о выпуске Stable Diffusion 1.0 XL, новой версии популярной модели для генерации изображений. SDXL 1.0 представляет собой базовую модель с 3,5 миллиарда параметров и пайплайн…

Wix AI: создание сайтов с помощью чат-бота

23 июля 2023

Wix AI: создание сайтов с помощью чат-бота

Сервис для создания сайтов Wix анонсировал запуск чат-бота Wix AI, позволяющего создавать и изменять сайты с помощью запросов на естественном языке. Помимо этого, инструмент будет предоставлять персонализированные стратегии по улучшению…

Stable Doodle: нейросеть превращает наброски в рисунки с высокой детализацией

14 июля 2023

Stable Doodle: нейросеть превращает наброски в рисунки с высокой детализацией

Stability AI представила Stable Doodle — нейросеть, которая превращает наброски в рисунки с высокой детализацией и предлагает на выбор несколько стилей. Для работы с инструментом нужно создать набросок изображения, ввести…

Модель PACGen переносит объект на новую сцену по текстовой подсказке

7 июля 2023

Модель PACGen переносит объект на новую сцену по текстовой подсказке

Исследователи Университета Висконсин-Мэдисон представили text-to-image диффузную модель PACGen (Personalized and Controllable Text-to-Image Generation) для переноса объекта с изображения на новую сцену, сгенерированную по текстовой подсказке. Для этого требуется подать на…