FrankMocap — это система для распознавания движений тела и рук в 3D. Инструмента разрабатывали исследователи из FAIR. Система позволяет в реальном времени оценивать движения рук и тела человека в 3D на видеозаписи с одного ракурса.
Модель принимает на вход кадры видеозаписи с одной RGB камеры. На выходе модель отдает предсказанные позы тела и рук. Основная цель FrankMocap — упростить доступ к методам 3D оценки позы. FrankMocap обрабатывает выдаёт предсказания со скоростью 9.5 кадров в секунду на инференсе. При этом по точности предсказаний система обходит аналоги.
Подробнее про библиотеку
По дефолту в FrankMocap в качестве рендерера используется openGL. Альтернативно можно использовать pytorch3d или openDR.
FrankMocap основывается на опенсорсных инструментах и моделях:
- 3D модели человеческого тела: SMPL, SMPLX;
- Архитектуру Detectron2;
- Pytorch3D для рендеринга;
- OpenDR для рендеринга;
- SPIN для оценки позы тела;
- 100DOH для распознавания рук;
- lightweight-human-pose-estimation для распознавания тела
Сравнение моделей
Разработчики сравнили предложенные модели для распознавания позы тела и рук с state-of-the-art методами. Ниже видно сравнение для модуля распознавания рук. Модели сравнивали на трех датасетах: STB, RHD и MPII+NZSL.