CFL (Corners for Lay-out) — первая end-to-end модель для восстановления трёхмерного макета помещения по фотографии формата 360°. Эксперименты показывают, что модель эффективнее современных аналогов и требует меньше затрат.
Идея выходит за рамки чисто геометрических реконструкций, предоставляя контекстную высокоуровневую информацию о сцене даже при наличии беспорядка. Оценка пространства — ключевая технология не только в AR/VR приложениях и навигации роботов, но и в более традиционных сферах, таких как недвижимость.
Существуют две разных вариации CFL. Одна из них — Standard Convolutions, позволяет сократить затрачиваемые вычислительные ресурсы в 100 раз. Вторая — Equirectangular Convolutions, адаптирует форму к проекции сферического изображения.
Модель CFL имеет наилучшие результаты компоновки сцены для сложных помещений. Перестройка этапов предварительной и последующей обработки делает метод намного быстрее аналогичных подходов. Пайплайн полностью устраняют возможность допущений, которые ограничивали возможность использования алгоритмов в геометрически сложных помещениях.
Архитектура сети
Сеть построена на ResNet-50 с добавлением одного декодера, которые совместно предсказывают границы и угловые карты (cornermaps).
Влияние смещений на ядро 3х3:
Слева — обычное ядро, в стандартной свёртке. В центре — деформируемое ядро. Справа — сферическое «пятно» на поверхности в EquiConvs.
Показано три положения ядра, чтобы выделить различия между смещениями.
Результаты
Из этой таблицы можно сделать вывод, что новый метод превосходит все базовые показатели.
В таблице ниже приведено среднее затрачиваемое время на обработку каждого изображения. Сравнения проводились на NVIDIA Titan X и Intel Xeon 3,5 ГГц (6 ядер), кроме DuLa-Net, этот метод оценивался с использованием NVIDIA 1080ti.
Анализ точности модели:
Числа представляют собой средние значения (чем больше, тем лучше), ± среднее отклонение (чем меньше, тем лучше)