GANverse3D реконструирует 3D-модель объекта по фотографии

GANverse3D

Нейронная сеть от NVIDIA GANverse3D позволяет трансформировать плоское изображение в реалистичную трехмерную модель, которой можно манипулировать в виртуальном пространстве. Новый подход к генерации обучающих данных позволил значительно увеличить точность реконструкции при одновременном уменьшении требований к разметке данных.

Читайте также: Нейросети, улучшающие качество изображений: подборка бесплатных сервисов

Архитектура GANverse3D

Новая архитектура GANverse3D состоит из двух нейронных сетей, осуществляющих рендеринг изображений. Генеративно-состязательная сеть формирует обучающий датасет на основе фотографий автомобилей, взятых из Интернета, генерируя изображения автомобилей под различными углами. Для этой задачи использовалось первые четыре слоя нейронной сети, в то время как оставшиеся 12 слоев были заморожены. Установив вручную положения точек обзора автомобилей, сфотографированных на определенной высоте и на определенном расстоянии от камеры, исследователи смогли быстро создать датасет с изображениями автомобилей под различными углами обзора по двумерных снимкам. На выходе сети получилось 55 000 изображений для обучения. Помимо фотографий автомобилей, исследователи также разработали датасеты на основе фотографий животных (рис. 1). Разработанная модель позволяет реконструировать объекты с различной текстурой и формой.

GANverse3D пример работы
Рис. 1. Слева: входные изображения генеративно-состязательной сети и их рендеры с различных точек обзора. Справа: входные изображения обратной графической сети и их рендеры с различных точек обзора.

Обучение модели

Датасеты с реальными фотографиями, на которых изображен один и тот же объект под различными углами, являются достаточно редкими. Поэтому ранее для обучения обратных графических нейросетей использовались датасеты с искусственно сгенерированными трехмерными моделями объектов (например, ShapeNet). Новый подход позволил более чем в 10 000 раз снизить количество меток данных в датасете. Полученные наборы фотографий автомобилей под различными углами подавались на вход обратной графической нейросети, извлекающей трехмерную модель объекта из двумерных изображений. После обучения GANverse3D требуется только одно изображение для построения трехмерной модели. Использование для обучения реальных изображений вместо искусственно сгенерированных данных позволяет использовать GANverse3D в существующих приложениях 3D-рендеринга. Модель, обученная на 55 000 изображениях автомобилей, созданных генеративно-состязательной нейросетью, превзошла обратную графическую нейросеть, обученную на популярном датасете Pascal3D.

Использование комбинации двух нейросетей, осуществляющих рендеринг – генеративно-состязательной и обратной графической – приводит к улучшению качества реконструкции трехмерных моделей по изображению с одного ракурса. GANverse3D позволит архитекторам, дизайнерам и гейм-девелоперам добавлять новые объекты на трехмерные макеты без затрат на рендеринг.

Подписаться
Уведомить о
guest

2 Comments
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Гость

А если будет подборка фото со всех проекций, она сделает точную копию объекта в 3D без графических артефактов?

Гость

Да хер знает


gogpt