fbpx
  • Сеть HoloGAN генерирует вид сбоку и сверху на основе 2D изображения

    azimuth elevation gan

    Группа исследователей предложила unsupervised модель GAN для восстановления 3D представлений из 2D изображений. Модель улучшила state-of-the-art результаты в генерации вида сбоку и сверху для предметов в датасетах Chairs и Cars.

    chairs dataset
    Восстановление формы стула по 2D изображению. Генерация доворота

    Особенности HoloGAN

    Большинство генеративных моделей используют 2D ядра сверток для генерации изображений и делают предположение о трехмерном пространстве. Они имеют тенденцию размывать части изображений в задачах, где генерация требует глубокого понимания особенностей трехмерного пространства, например, в случае генерации нового представления.

    Вместо этого HoloGAN изучает трехмерное представление мира и реалистично отображает его при генерации. Эксперименты показали, что использование явных 3D-признаков позволяет HoloGAN выделять 3D-позу и индивидуальность, которые в дальнейшем раскладываются на форму и внешний вид. В то же время, они позволяют генерировать изображения с аналогичным или более высоким визуальным качеством, чем у других генеративных моделей.

    HoloGAN
    Архитектура HoloGAN в сравнении с Conditional GAN

    HoloGAN может обучаться end-to-end на основе одних лишь неразмеченных 2D-изображений. В частности, модели не требуются размеченные позы, трехмерные фигуры или несколько видов одних и тех же объектов. Это показывает, что HoloGAN является первой генеративной моделью, которая изучает трехмерные представления из естественных изображений полностью unsupervised-образом.

    Основные технические особенности:

    • Новая архитектура GAN, включающая изучение 3D-представлений и глубокую генеративную модель;
    • Безусловный GAN, который впервые позволяет производить манипулирование представлениями без ущерба для изображения;
    • Unsupervised-подход к обучению, который не требует размеченных данных.

    Принцип работы

    архитектура модели

    На первом шаге, HoloGAN обучает 3D-признаки с использованием слоев с 3D-свертками. Далее модель производит трансформации над 3D-признаками, для получения положения ϴ. Затем после сверточных слоев происходит построение проекции из 3D в 2D. Тогда в конце добавляется еще несколько слоев, но уже с 2D-свертками.

    Важной особенностью этого генератора является скрытый слой z, который по традиции является входным слоем генератора. В HoloGAN, этот слой участвует в вычислениях на протяжении всей работы генератора — в начальных и конечных сверточных слоях. Он подается через MLP к параметрам афинных преобразований для адаптивной нормализации экземпляров (AdaIN).

    восстановление формы

    Результаты

    результаты

    Из таблицы видно, что модель HoloGAN может достигать схожих или превышающих другие модели результатов по метрике KID. В сравнении участвовали модели, которые предоставляют возможность явного управления объектами на сгенерированных изображениях.