Atlas: нейросеть реконструирует 3D сцену на изображении

Atlas — это нейросетевая модель, которая реконструирует 3D сцену на изображении. Нейросеть восстанавливает 3D модель сцены по RGB изображениям сцены. Разработкой модели занимались исследователи из Magic Leap.

Ограничения прошлых моделей

Традиционные подходы к задаче 3D реконструкции полагаются на промежуточное представление карт глубины до предсказания полной 3D модели сцены. Исследователи предположили, что прямой предсказание из 2D в 3D без промежуточного этапа будет давать более точные результаты.

Как работает предложенный подход

На вход модели поступают 2D изображения сцены. 2D CNN извлекает признаки из каждого входного изображения по отдельности. Эти признаки проецируются и аккумулируются в воксели. После аккумуляции 3D CNN уточняет аккумулированные признаки и предсказывает значения функции расстояния truncated signed distance function (TSDF). Кроме того, семантическая сегментация восстановленной 3D модели осуществляется без значительных дополнительных вычислений.

Оценка работы модели

Работу Atlas оценивали на датасете Scannet. Предложенный подход обходит часть state-of-the-art базовых моделей по количественным и качественным метрикам.