PIFu: нейросеть моделирует фигуру человека в 3D

PIFu — это end-to-end алгоритм, который восстанавливает 3D-модель одетого человека из одной фотографии. Метод обходит существующие решения на задаче генерации 3D-модели человека из одного изображения.

Метод восстанавливает 3D-модель человека в высоком разрешении. Подход позволяет восстанавливать людей в разных типах одежды: мятая одежда, комплексная прическа или обувь с высоким каблуком. Форма и текстуры полностью восстанавливаются вместе с невидными на изображении частями тела (например, спина). PIFu масштабируется на генерацию модели человека из нескольких фотографий.

Нейросеть локально соотносит пиксели из 2D изображения с глобальным контекстом объекта в 3D. В сравнении с существующими подходами PIFu выдает результирующую модель человека в высоком разрешении. Предыдущие подходы разрабатывались отдельно либо для генерации модели из одного изображения, либо из нескольких. PIFu решает обе задачи лучше state-of-the-art подходов.

Как это работает

На вход модели подается одно или несколько изображений. Цель — восстановить 3D геометрию и текстуру одетого человека, сохранив при этом детали изображения. Предложенный алгоритм состоит из полностью сверточного кодировщика изображений и непрерывной функции, которая переводит эмбеддинг изображения в 3D-поверхность. Эта функция основана на многослойных перцептронах. Непрерывность PIFu позволяет генерировать детальную геометрию с произвольной топологией и требует минимального расхода памяти.

На основе входного изображения модель предсказывает непрерывные внутреннее/внешнее вероятностное пространство одетого человека. Затем PIFu для восстановления текстуры распространяет RGB значения на данные 3D точки геометрии объекта.

Тестирование алгоритма

Модель и предыдущие подходы оценивались на нескольких датасетах: RenderPeople, BUFF и DeepFashion. В качестве количественных метрики для оценки было выбрано среднее Евклидово расстояние от точки до поверхности (P2S) в сантиметрах из вершины сгенерированной модели к реальной модели. Также исследователи использовали Chamfer distance между реконструированной и реальной поверхностями и нормальную репроекцию ошибки. Последняя метрика измеряет последовательность качества предсказаний модели.

Количественные метрики качества моделей на задаче генерации модели человека из нескольких изображений

Отобранные примеры сгенерированных 3D-моделей из одного изображения

Компьютерное зрение Сверточная нейросеть

Как это работает

Тестирование алгоритма

Читайте также