Группа исследователей предложила unsupervised модель GAN для восстановления 3D представлений из 2D изображений. Модель улучшила state-of-the-art результаты в генерации вида сбоку и сверху для предметов в датасетах Chairs и Cars.
Особенности HoloGAN
Большинство генеративных моделей используют 2D ядра сверток для генерации изображений и делают предположение о трехмерном пространстве. Они имеют тенденцию размывать части изображений в задачах, где генерация требует глубокого понимания особенностей трехмерного пространства, например, в случае генерации нового представления.
Вместо этого HoloGAN изучает трехмерное представление мира и реалистично отображает его при генерации. Эксперименты показали, что использование явных 3D-признаков позволяет HoloGAN выделять 3D-позу и индивидуальность, которые в дальнейшем раскладываются на форму и внешний вид. В то же время, они позволяют генерировать изображения с аналогичным или более высоким визуальным качеством, чем у других генеративных моделей.
HoloGAN может обучаться end-to-end на основе одних лишь неразмеченных 2D-изображений. В частности, модели не требуются размеченные позы, трехмерные фигуры или несколько видов одних и тех же объектов. Это показывает, что HoloGAN является первой генеративной моделью, которая изучает трехмерные представления из естественных изображений полностью unsupervised-образом.
Основные технические особенности:
- Новая архитектура GAN, включающая изучение 3D-представлений и глубокую генеративную модель;
- Безусловный GAN, который впервые позволяет производить манипулирование представлениями без ущерба для изображения;
- Unsupervised-подход к обучению, который не требует размеченных данных.
Принцип работы
На первом шаге, HoloGAN обучает 3D-признаки с использованием слоев с 3D-свертками. Далее модель производит трансформации над 3D-признаками, для получения положения ϴ. Затем после сверточных слоев происходит построение проекции из 3D в 2D. Тогда в конце добавляется еще несколько слоев, но уже с 2D-свертками.
Важной особенностью этого генератора является скрытый слой z, который по традиции является входным слоем генератора. В HoloGAN, этот слой участвует в вычислениях на протяжении всей работы генератора — в начальных и конечных сверточных слоях. Он подается через MLP к параметрам афинных преобразований для адаптивной нормализации экземпляров (AdaIN).
Результаты
Из таблицы видно, что модель HoloGAN может достигать схожих или превышающих другие модели результатов по метрике KID. В сравнении участвовали модели, которые предоставляют возможность явного управления объектами на сгенерированных изображениях.