Модель Corners for Lay-out восстанавливает макеты помещений из 360° фотографий

CFL (Corners for Lay-out) — первая end-to-end модель для восстановления трёхмерного макета помещения по фотографии формата 360°. Эксперименты показывают, что модель эффективнее современных аналогов и требует меньше затрат.

Идея выходит за рамки чисто геометрических реконструкций, предоставляя контекстную высокоуровневую информацию о сцене даже при наличии беспорядка. Оценка пространства — ключевая технология не только в AR/VR приложениях и навигации роботов, но и в более традиционных сферах, таких как недвижимость.

Существуют две разных вариации CFL. Одна из них — Standard Convolutions, позволяет сократить затрачиваемые вычислительные ресурсы в 100 раз. Вторая — Equirectangular Convolutions, адаптирует форму к проекции сферического изображения.

Модель CFL имеет наилучшие результаты компоновки сцены для сложных помещений. Перестройка этапов предварительной и последующей обработки делает метод намного быстрее аналогичных подходов. Пайплайн полностью устраняют возможность допущений, которые ограничивали возможность использования алгоритмов в геометрически сложных помещениях.

Архитектура сети

Сеть построена на ResNet-50 с добавлением одного декодера, которые совместно предсказывают границы и угловые карты (cornermaps).

Здесь предлагается два варианта сети StdConvs, которая применяется к равнобедренной панараме, и EquiConvs, которая применяется к сфере. — Здесь предлагается два варианта сети: StdConvs применяется к равнобедренной панараме, и EquiConvs — к сфере.

Влияние смещений на ядро 3х3:

Слева — обычное ядро, в стандартной свёртке. В центре — деформируемое ядро. Справа — сферическое «пятно» на поверхности в EquiConvs.

Показано три положения ядра, чтобы выделить различия между смещениями.

Результаты

Из этой таблицы можно сделать вывод, что новый метод превосходит все базовые показатели.

В таблице ниже приведено среднее затрачиваемое время на обработку каждого изображения. Сравнения проводились на NVIDIA Titan X и Intel Xeon 3,5 ГГц (6 ядер), кроме DuLa-Net, этот метод оценивался с использованием NVIDIA 1080ti.