GANverse3D реконструирует 3D-модель объекта по фотографии

Нейронная сеть от NVIDIA GANverse3D позволяет трансформировать плоское изображение в реалистичную трехмерную модель, которой можно манипулировать в виртуальном пространстве. Новый подход к генерации обучающих данных позволил значительно увеличить точность реконструкции при одновременном уменьшении требований к разметке данных.

Архитектура GANverse3D

Новая архитектура GANverse3D состоит из двух нейронных сетей, осуществляющих рендеринг изображений. Генеративно-состязательная сеть формирует обучающий датасет на основе фотографий автомобилей, взятых из Интернета, генерируя изображения автомобилей под различными углами. Для этой задачи использовалось первые четыре слоя нейронной сети, в то время как оставшиеся 12 слоев были заморожены. Установив вручную положения точек обзора автомобилей, сфотографированных на определенной высоте и на определенном расстоянии от камеры, исследователи смогли быстро создать датасет с изображениями автомобилей под различными углами обзора по двумерных снимкам. На выходе сети получилось 55 000 изображений для обучения. Помимо фотографий автомобилей, исследователи также разработали датасеты на основе фотографий животных (рис. 1). Разработанная модель позволяет реконструировать объекты с различной текстурой и формой.

GANverse3D пример работы — Рис. 1. Слева: входные изображения генеративно-состязательной сети и их рендеры с различных точек обзора. Справа: входные изображения обратной графической сети и их рендеры с различных точек обзора.

Обучение модели

Датасеты с реальными фотографиями, на которых изображен один и тот же объект под различными углами, являются достаточно редкими. Поэтому ранее для обучения обратных графических нейросетей использовались датасеты с искусственно сгенерированными трехмерными моделями объектов (например, ShapeNet). Новый подход позволил более чем в 10 000 раз снизить количество меток данных в датасете. Полученные наборы фотографий автомобилей под различными углами подавались на вход обратной графической нейросети, извлекающей трехмерную модель объекта из двумерных изображений. После обучения GANverse3D требуется только одно изображение для построения трехмерной модели. Использование для обучения реальных изображений вместо искусственно сгенерированных данных позволяет использовать GANverse3D в существующих приложениях 3D-рендеринга. Модель, обученная на 55 000 изображениях автомобилей, созданных генеративно-состязательной нейросетью, превзошла обратную графическую нейросеть, обученную на популярном датасете Pascal3D.

Использование комбинации двух нейросетей, осуществляющих рендеринг – генеративно-состязательной и обратной графической – приводит к улучшению качества реконструкции трехмерных моделей по изображению с одного ракурса. GANverse3D позволит архитекторам, дизайнерам и гейм-девелоперам добавлять новые объекты на трехмерные макеты без затрат на рендеринг.