HigherHRNet: снизу-вверх подход для оценки позы человека на изображении

HigherHRNet — это нейросеть для распознавания позы человека снизу-вверх. Модель решает проблему вариации масштаба людей на изображении. В основе HigherHRNet лежат Feature Pyramid Networks (FPNs). HigherHRNet обходит предыдущие подходы снизу-вверх на 2.5% по средней точности (Average Precision) на датасете COCO. Помимо этого, нейросеть получила 70.5% по метрике AP на COCO без использования блоков для уточнения предсказаний или других метод постобработки предсказаний. На датасете CrowdPose модель обходит еще и все сверху-вниз подходы.

Методы оценки позы человека снизу-вверх имеют сложность с предсказанием позы для людей с низким ростом из-за вариации масштабов на изображении. Чтобы решить эту проблему, HigherHRNet использует multi-resolution supervision на этапе обучения и агрегацию multi-resolution на инференсе. Такой дизайн позволяет модели более точно локализовывать ключевые точки позы на изображении, в особенности для маленьких людей. Пирамида признаков (feature pyramid) в модели включает в себя карту признаков из HRNet и upsampled выходов свертки. 

Архитектура модели

Нейросеть основана на HRNet и использует ее в качестве базовой модели. За HRNet идет один или более модулей деконволюции, с помощью которых генерируются тепловые карты. Кроме того, HigherHRNet использует пирамиды признаков, как в FPN. В оригинальной FPN 4 уровня пирамид, а в предложенной модели их 2.

Визуализация составных частей модели

 HigherHRNet: нейросеть для оценки позы человека на изображении

Исследователи сравнили HigherHRNet с state-of-the-art снизу-вверх подходами для оценки позы. Модели тестировали на датасете COCO2017 test-dev. Ниже видно, что HigherHRNet более точно предсказывает позу человека, чем конкурирующие подходы.

Сравнение снизу-вверх моделей на датасете COCO2017 test-dev
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt