Google MobileDiffusion: генерация изображений на мобильных устройствах

MobileDiffusion

Google представила MobileDiffusion – модель преобразования текста в изображение в реальном времени, полностью работающую на мобильных устройствах. На Android- и iOS-устройствах с процессорами последних поколений генерация изображения с разрешением 512×512 пикселей занимает менее половины секунды.

Ведущие text-to-image модели (например, Stable Diffusion, DALL-E и Imagen) имеют миллиарды параметров и, следовательно, дороги в эксплуатации, требуя мощных настольных компьютеров или серверов. Хотя в 2023-м году были представлены решения, работающие на мобильных устройствах (с помощью MediaPipe на Android и Core ML на iOS), генерация изображения на мобильных устройствах в реальном времени – с задержкой менее одной секунды – оставалась недоступной.

MobileDiffusion – эффективная модель скрытой диффузии, специально разработанная для мобильных устройств. Примеры изображений, сгенерированных MobileDiffusion менее чем за половину секунды:

MobileDiffusion google

Относительная неэффективность моделей преобразования текста в изображение обусловлена двумя причинами. Во-первых, диффузионным моделям присуще итеративное снижение уровня шума, что требует многократных вызовов модели. Во-вторых, сложность архитектуры text-to-image моделей предполагает значительное число параметров, которые исчисляются миллиардами и приводят к высокой вычислительной сложности. В MobileDiffusion оптимизированы как количество итераций, так и количество параметров: с помощью DiffusionGAN достигнута достигнута генерация изображения за счет одной итерации семплирования, а сравнительно небольшой размер модели – 520 миллионов параметров – позволяет использовать ее на мобильных устройствах.

Наибольшую скорость генерации изображений исследователям удалось достигнуть на iPhone 15 Pro. Подробное описание архитектуры модели и примеры ее работы в реальном времени доступны по ссылке.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt