Apple MGIE: мультимодальные модели для редактирования изображений

apple mgie

Apple совместно с Калифорнийским университетом разработала open-source модель MGIE для редактирования изображений по текстовому запросу. Модель решает различные классы задач, включая модификацию изображений в стиле Photoshop, глобальную оптимизацию фотографий и локальное редактирование.

Во MGIE (MLLM-Guided Image Editing) используются мультимодальные большие языковые модели (MLLM), способные обрабатывать как текст, так и изображения, для улучшения качества редактирования изображений на основе запроса. Ранее мультимодальные модели для решения данной задачи не использовались.

MGIE интегрирует MLLMS в процесс редактирования изображений двумя способами: во-первых, модель использует MLLM для получения конкретных инструкций из запроса. Например, для запроса «сделайте небо более голубым» MGIE сгенерирует инструкцию «увеличить насыщенность области неба на 20%». Во-вторых, MLLM генерирует скрытое представление требуемой правки для редактирования на уровне пикселей. MGIE использует новую сквозную схему обучения, которая совместно оптимизирует модули генерации инструкций, генерации скрытого представления и редактирования изображений. Пользователи также могут уточнять запросы для итеративного редактирования.

MGIE обрабатывает широкий спектр сценариев редактирования, от простой настройки цвета до сложных манипуляций с объектами. Модель также может выполнять глобальные и локальные правки. Ключевые возможности MGIE:

  • Редактирование на основе инструкций: MGIE создает конкретные инструкции, которые эффективно управляют процессом редактирования. Это повышает качество редактирования и упрощает написание запроса.
  • Модификация в стиле Photoshop: MGIE может выполнять обычные правки в стиле Photoshop, такие как обрезка, изменение размера, поворот, зеркальное отражение и добавление фильтров. Модель также может вносить более сложные правки, такие как изменение фона, добавление или удаление объектов.
  • Глобальная оптимизация фотографий: MGIE может оптимизировать общее качество фотографии, такое как яркость, контрастность, резкость и цветовой баланс, а также применять художественные эффекты, такие как создание эскизов, раскрашивание и карикатурирование.
  • Локальное редактирование: MGIE может редактировать определенные области или объекты на изображении, такие как лица, глаза, волосы, одежда и аксессуары, включая изменение атрибутов этих областей или объектов (форма, размер, цвет, текстура и стиль).

Код MGIE доступен на GitHub, попробовать модель можно с помощью веб-демо на Hugging Face Spaces.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt