Nvidia представила генератор 3D-модели по текстовому описанию Magic3D

Исследователи из Nvidia 18 ноября представили Magic3D — генератор 3D-модели по текстовому описанию. После ввода текстовой подсказки, например «Синяя ядовитая лягушка, сидящая на кувшинке», Magic3D создает 3D модель с цветной текстурой примерно за 40 минут. Полученная 3D модель после модификаций может использоваться в видеоиграх или компьютерной графике для создания мультипликаций или спецэффектов в фильмах.

Описание модели Magic3D

В своей научной статье Nvidia представляет Magic3D как ответ на DreamFusion, преобразователь текста в 3D изображение, о котором исследователи Google объявили в сентябре.

Magic3D model how it works — По словам авторов статьи, получившийся в результате метод Magic3D может генерировать 3D-объекты в два раза быстрее, чем DreamFusion. На рендер одной модели требуется в среднем 40 минут.

Magic3D использует двухэтапный процесс, который берет грубую модель, созданную в низком разрешении, и оптимизирует ее, приводя к более высокому разрешению. DreamFusion также использует модель преобразования текста в изображение для создания 2D-изображения, которое затем оптимизируется в 3D по методу NeRF (Neural Radiance Fields). В Magic3D получившуюся 3D-модель с низким разрешением можно отредактировать, изменив текст подсказки. Кроме того, авторы демонстрируют сохранение одного и того же объекта на протяжении нескольких эпох (эта концепция часто называется когерентностью) и применение стиля 2D-изображения, например, картины в стиле кубизм, к 3D-модели. К сожалению, Nvidia не открыла код модели в своей статье.

Сравнение результатов с DreamFusion

Возможность генерировать 3D из текста — естественная эволюцией современных diffusion-моделей, которые используют нейронные сети для синтеза нового контента после обучения на массиве данных. В 2022 году мы стали свидетелями выпуска моделей преобразования текста в изображение, таких как DALL-E и Stable Diffusion, элементарных генераторов преобразования из текста в видео от Google. Два месяца назад Google также представил вышеупомянутую модель преобразования текста в 3D — DreamFusion, и с тех пор разработчики адаптировали аналогичные методы для работы с моделью с открытым исходным кодом, основанной на Stable Diffusion.

Magic3D Nvidia vs DreamFusion — Сравнение результатов работы моделей Magic3D от Nvidia и DreamFusion от Google

Исследователи надеются, что модель позволит создавать 3D-модели без специальной подготовки. После доработки получившаяся технология может ускорить разработку видеоигр (и виртуальной реальности) и, возможно, в конечном итоге найти применение в спецэффектах для кино и телевидения. Ближе к концу статьи авторы пишут: «Мы надеемся, что с помощью Magic3D сможем демократизировать 3D-моделирование и открыть творческий потенциал каждого в создании 3D-контента».