fbpx
  • Нейросеть распознает 3D позу человека в реальном времени

    Оценка позы человека и распознавание действия — это связанные задачи, потому как обе проблемы зависят от представления и анализа тела человека. Тем не менее большинство существующих моделей решают эти проблемы раздельно. Исследователи предлагают мультизадачный фреймворк, который решает задачи совместной оценки 2D и 3D поз из изображений и классификации действий по видеозаписи. 

    Одна архитектура справляется с обеими задачами на уровне state-of-the-art подходов. При этом модель на инференсе обрабатывает более 100 кадров в секунду. Предложенная нейросеть использует разделяет параметры при решении задач оценки позы и классификации действий. 

    Обзор предложенного подхода

    Архитектура подхода

    Процесс работы модели состоит из следующих шагов:

    1. Из входных изображений извлекаются карты признаков;
    2. Карты признаков поступают на вход последовательности сверточных сетей, которые состоят из блоков предсказаний (PB), модулей апскейлинга и даунскейлинга (UU и DU) и skip-связей;
    3. Каждый PB блок выдает предсказания позы и действия. Эти предсказания уточняются в последующих блоках

    Модель обучали полностью на размеченных данных.

    Визуализация составных частей сети

    Оценка работы модели

    Исследователи тестировали модель на четырех датасетах: MPII, Human3.6M, Penn Action и NTU RGB+D. Ниже видно, что для датасета Human3.6M нейросеть обходит предыдущие подходы в точности классификации действий по видео.

    Сравнение подходов на задаче распознавания действий на датасете Human3.6M