IG-GAN — это нейросеть, которая генерирует 3D модель объекта из 2D изображения. Нейросеть использует готовый рендерер во время обучения. Это позволяет генерировать более реалистичные модели объектов. Исследователи протестировали нейросеть на изображениях, которые были сгенерированы на основе 3D моделей объектов. По результатам экспериментов, IG-GAN обходит предыдущие подходы по корректности сгенерированных 3D форм.
Предыдущие подходы к генерации 3D формы объекта по 2D изображению требуют дифференцирование на шаге растеризации во время рендеринга. Это предполагает, что прошлые работы фокусировались на разработке моделей рендеринга. Такие модели не достигают той фотореалистичности, которую предоставляют готовые рендереры, которые разрабатывают в игровой индустрии. Исследователи предлагают масштабируемую технику обучения 3D генеративных моделей, которая использует готовый недифференцируемый рендерер. Чтобы учитывать недифференцируемость готового рендерера, в фреймоворке существует нейронный рендерер. Результаты нейронного рендерера сопоставляются с результатами готового рендерера.
Архитектура модели
Задача заключается в том, что бы обучить генеративную модель для 3D форм объектов, которая рендерила бы эти формы с помощью готового рендерера.
Генеративная модель принимает на вход случайный входной вектор и генерирует непрерывное воксел-представление 3D объекта. Затем воксели поступают на вход недифференцируему рендереру. На этом этапе воксели рендерятся с помощью готового рендерера.
В качество готового рендерера используется Pyrender (Matl), который базируется на OpenGL. Генератор в нейросети — это 3D сверточная GAN. В качестве нейронного рендерера исследователи использовали RenderNet. Дискриминатор модели основан на архитектуре дискриминатора из DCGAN.
Оценка работы модели
Исследователи оценили работу нейросети на ряде синтетических датасетов. Датасеты были сгенерированы из 3D моделей в ShapeNet. Изображения генерировали для трех классов объектов из ShapeNet: стулья, диваны и ванны. IG-GAN сравнивали с state-of-the-art подходами для генерации 3D форм объектов:
- Visual Hull;
- Absorbtion Only;
- 2D-DCGAN
Ниже видно, что, по FID метрике, IG-GAN обходит существующие подходы.