Модель Corners for Lay-out восстанавливает макеты помещений из 360° фотографий

360 photo recovery scene

CFL (Corners for Lay-out) — первая end-to-end модель для восстановления трёхмерного макета помещения по фотографии формата 360°. Эксперименты показывают, что модель эффективнее современных аналогов и требует меньше затрат.

Идея выходит за рамки чисто геометрических реконструкций, предоставляя контекстную высокоуровневую информацию о сцене даже при наличии беспорядка. Оценка пространства — ключевая технология не только в AR/VR приложениях и навигации роботов, но и в более традиционных сферах, таких как недвижимость.
Модель восстанавливает макет

Существуют две разных вариации CFL. Одна из них — Standard Convolutions, позволяет сократить затрачиваемые вычислительные ресурсы в 100 раз. Вторая — Equirectangular Convolutions, адаптирует форму к проекции сферического изображения.

Модель CFL имеет наилучшие результаты компоновки сцены для сложных помещений. Перестройка этапов предварительной и последующей обработки делает метод намного быстрее аналогичных подходов. Пайплайн полностью устраняют возможность допущений, которые ограничивали возможность использования алгоритмов в геометрически сложных помещениях.

Архитектура сети

Сеть построена на ResNet-50 с добавлением одного декодера, которые совместно предсказывают границы и угловые карты (cornermaps).

Здесь предлагается два варианта сети StdConvs, которая применяется к равнобедренной панараме, и EquiConvs, которая применяется к сфере.
Здесь предлагается два варианта сети: StdConvs применяется к равнобедренной панараме, и EquiConvs — к сфере.

Влияние смещений на ядро 3х3:

Слева — обычное ядро, в стандартной свёртке. В центре — деформируемое ядро. Справа — сферическое «пятно» на поверхности в EquiConvs.

EquiConvs на сферических изображениях.

Показано три положения ядра, чтобы выделить различия между смещениями.

Результаты

Из этой таблицы можно сделать вывод, что новый метод превосходит все базовые показатели.

Результаты сравнения на датасете SUN 360

В таблице ниже приведено среднее затрачиваемое время на обработку каждого изображения. Сравнения проводились на NVIDIA Titan X и Intel Xeon 3,5 ГГц (6 ядер), кроме DuLa-Net, этот метод оценивался с использованием NVIDIA 1080ti.

Сравнение затрачиваемых вычислительных ресурсов

Анализ точности модели:

точность

Числа представляют собой средние значения (чем больше, тем лучше), ± среднее отклонение (чем меньше, тем лучше)

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt