![360 photo recovery scene](https://neurohive.io/wp-content/uploads/2019/03/360-photo-recovery-scene-e1553787556188.jpg)
CFL (Corners for Lay-out) — первая end-to-end модель для восстановления трёхмерного макета помещения по фотографии формата 360°. Эксперименты показывают, что модель эффективнее современных аналогов и требует меньше затрат.
Идея выходит за рамки чисто геометрических реконструкций, предоставляя контекстную высокоуровневую информацию о сцене даже при наличии беспорядка. Оценка пространства — ключевая технология не только в AR/VR приложениях и навигации роботов, но и в более традиционных сферах, таких как недвижимость.
Существуют две разных вариации CFL. Одна из них — Standard Convolutions, позволяет сократить затрачиваемые вычислительные ресурсы в 100 раз. Вторая — Equirectangular Convolutions, адаптирует форму к проекции сферического изображения.
Модель CFL имеет наилучшие результаты компоновки сцены для сложных помещений. Перестройка этапов предварительной и последующей обработки делает метод намного быстрее аналогичных подходов. Пайплайн полностью устраняют возможность допущений, которые ограничивали возможность использования алгоритмов в геометрически сложных помещениях.
Архитектура сети
Сеть построена на ResNet-50 с добавлением одного декодера, которые совместно предсказывают границы и угловые карты (cornermaps).
![Здесь предлагается два варианта сети StdConvs, которая применяется к равнобедренной панараме, и EquiConvs, которая применяется к сфере.](https://neurohive.io/wp-content/uploads/2019/03/CFL-architecture-574x570.jpg)
Влияние смещений на ядро 3х3:
Слева — обычное ядро, в стандартной свёртке. В центре — деформируемое ядро. Справа — сферическое «пятно» на поверхности в EquiConvs.
![](https://neurohive.io/wp-content/uploads/2019/03/EquiConvs-706x570.jpg)
Показано три положения ядра, чтобы выделить различия между смещениями.
Результаты
Из этой таблицы можно сделать вывод, что новый метод превосходит все базовые показатели.
![](https://neurohive.io/wp-content/uploads/2019/03/table-570x286.png)
В таблице ниже приведено среднее затрачиваемое время на обработку каждого изображения. Сравнения проводились на NVIDIA Titan X и Intel Xeon 3,5 ГГц (6 ядер), кроме DuLa-Net, этот метод оценивался с использованием NVIDIA 1080ti.
![](https://neurohive.io/wp-content/uploads/2019/03/table-1-570x247.png)
Анализ точности модели:
Числа представляют собой средние значения (чем больше, тем лучше), ± среднее отклонение (чем меньше, тем лучше)