fbpx
  • SynSin: end-to-end генерация сцены на основе одного изображения

    SynSin — это нейросеть, которая принимает на вход изображение сцены и генерирует изображения данной сцены в других ракурсах. Модель предсказывает 3D облако точек, которые проецируется на новые ракурсы с помощью дифференцируемого рендерера. Затем отрендерендеренное облако точек поступает в GAN, которая генерирует итоговые изображения. SynSin не требует размеченных 3D моделей сцен для обучения. Нейросеть обходит предыдущие подходы на датасетах Matterport, Replica и RealEstate10K. Разработкой нейросети занимались исследователи из FAIR.

    Задача генерации изображений сцены по одному изображению сцены требует от модели высокого уровня способности к генерализации. Текущие state-of-the-art методы для генерации изображений сцен обычно используют несколько изображений сцены для обучения. SynSin не нуждается в 3D моделях сцен и нескольких изображениях целевой сцены, чтобы генерировать реалистичные изображения сцены с других ракурсов. 

    Архитектура нейросети

    SynSin принимает на вход изображение сцены и указание о смене ракурса. Блок предсказания пространственных признаков (f) выучивает признаки (F). Параллельно регрессор глубины выучивает карту глубины изображения (D). Пространственные признаки (F) проецируются в 3D, чтобы получить облако точек признаков (P). Облако точек (P) трансформируется в соответствии с входным указанием о смене ракурса и рендерится. Отрендеренные признаки подаются на вход GAN нейросети, которая генерирует итоговое изображение. В качестве архитектуры GAN исследователи выбрали BigGAN. Итоговое изображение должно соответствовать целевому изображению. Это соответствие выучивается с помощью набора дискриминаторов в нейросети и фотометрических функций потерь.

    Обзор пайплайна обучения модели

    Тестирование системы

    Исследователи тестировали модель на задачах генерации сцен внутри и вне дома на датасете RealEstate. На вход тестируемые модели принимают изображение сцены и параметры камеры. На выходе им необходимо сгенерировать изображение, максимально похожее на целевое. SynSin выдает более реалистичные результаты и в меньшей степени генерирует артефакты. 

    Сравнение моделей по отдельным примерам