PIFuHD — это нейросетевая архитектура для восстановления 3D модели человека из 2D изображения. Подход обходит существующие модели по реалистичности генерируемых 3D моделей. Разработкой модели занимались исследователи из Facebook AI. PIFuHD основывается на методе Pixel-Aligned Implicit Function (PIFu) и иерархической многоуровневой нейросети. Нейросеть учитывает глобальный и локальный контексты изображения, что позволяет достичь высокой точности итоговой 3D модели. PIFuHD захватывает такие детали, как пальцы, черты лица и складки на одежде человека на изображении. Предыдущие подходы не были способны на такую детализацию.
В чем проблема
Из-за ограничений в памяти текущий электронных устройств прошлые подходы чаще принимали на вход сжатое изображение. При этом они выдавали менее точные предсказания или предсказания в низком разрешении. Исследователи обходят это ограничение с помощью двухуровневой архитектуры в PIFuHD. Модель учитывает глобальный и локальный контексты.
Архитектура подхода
Нейросеть принимает на вход изображение человека с разрешением 1024×1024. На выходе подход отдает 3D модель человека. Архитектура метода состоит из двух уровней PIFu модулей:
- Базовый уровень, который фокусируется на извлечении глобальных признаков из изображения. Этот модуль схож с PIFu;
- Уточняющий уровень, который фокусируется на извлечении информации о локальном контексте и добавлении точных деталей к 3D модели