Нейросеть распознает 3D позу человека в реальном времени

Оценка позы человека и распознавание действия — это связанные задачи, потому как обе проблемы зависят от представления и анализа тела человека. Тем не менее большинство существующих моделей решают эти проблемы раздельно. Исследователи предлагают мультизадачный фреймворк, который решает задачи совместной оценки 2D и 3D поз из изображений и классификации действий по видеозаписи. 

Одна архитектура справляется с обеими задачами на уровне state-of-the-art подходов. При этом модель на инференсе обрабатывает более 100 кадров в секунду. Предложенная нейросеть использует разделяет параметры при решении задач оценки позы и классификации действий. 

Обзор предложенного подхода

Архитектура подхода

Процесс работы модели состоит из следующих шагов:

  1. Из входных изображений извлекаются карты признаков;
  2. Карты признаков поступают на вход последовательности сверточных сетей, которые состоят из блоков предсказаний (PB), модулей апскейлинга и даунскейлинга (UU и DU) и skip-связей;
  3. Каждый PB блок выдает предсказания позы и действия. Эти предсказания уточняются в последующих блоках

Модель обучали полностью на размеченных данных.

Визуализация составных частей сети

Оценка работы модели

Исследователи тестировали модель на четырех датасетах: MPII, Human3.6M, Penn Action и NTU RGB+D. Ниже видно, что для датасета Human3.6M нейросеть обходит предыдущие подходы в точности классификации действий по видео.

Сравнение подходов на задаче распознавания действий на датасете Human3.6M
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt