fbpx
  • Нейросеть извлекает 3D модель человека и объектов из изображения

    Исследователи из Carnegie Mellon University, Facebook AI Research, Argo AI и University of California разработали нейросетевую модель, которая генерирует 3D модели людей и прилегающих объектов из одного 2D изображения. При этом модель учитывает пространственные отношения между объектами.

    Подробнее про модель 

    PHOSA (Perceiving 3D Human-Object Spatial Arrangements) работает без разметки на уровне сцены или объекта. Модель извлекает множество связей между человеком на изображении и остальными объектами и переводит их в 3D пространство. Исследователи внедрили в процесс обучения модели ограничения, которые позволяют разрешать спорные ситуации во время генерации 3D моделей. Для этого в функционале ошибки модели используется несколько loss terms, которые отвечают за:

    • Масштаб: размер объекта;
    • Силуэт: оптимизация позы человека;
    • Взаимодействие: оптимизация связей человека с остальными объектами на изображении

    Предложенный фреймворк использует модели 3D оценки позы человека, модели instance-сегментации и дифференцируемую 3D рендеринг модель.

    Визуализация структуры фреймворка

    Оценка работы модели

    Исследователи оценивали результаты модели качественными и количественными метриками. Тестировали фреймворк на датасете COCO-2017. PHOSA выдает сравнимые с state-of-the-art результаты для изображений, в которых люди соприкасаются с обыденными объектами.