Yoga-82 — это датасет для классификации позы человека на изображении. Данные состоят из изображений с людьми, которые занимаются йогой. Всего в датасете 82 класса, которые отражают позы из йоги. На каждый класс приходится разное количество изображений: от 64 до 1133.
Проблема существующих датасетов
Оценка позы человека — это одна из открытых задач компьютерного зрения. Существующие датасеты для обучения моделей содержат недостаточно разнообразные позы и ракурсы. Такая особенность существующих датасетов делает задачу разметки данных простой. При этом это ограничивает применение моделей, которые были обучены на таких датасетах. Чтобы учесть высокую вариативность человеческих поз, исследователи предлагают концепцию иерархической классификации позы. Оценка позы рассматривается как задача классификации.
Подробнее про датасет
Классы в данных состоят из 3 уровней: расположение тела, различия в расположении тела и реальные названия поз из йоги. Классы первого уровня включают в себя:
- Стоячая поза: субъект стоит, при этом тело расположено прямо или согнуто;
- Сидячая поза: субъект сидит на полу;
- Балансирующая поза: субъект стоит на руках;
- Перевернутая поза: нижняя часть тела в воздухе или близко к полу;
- Тело субъекта расположено на полу или близко к полу;
- Колесо: тело субъекта вполовину на полу или близко к полу
В среднем на каждый из 82 классов третьего уровня приходится 347 изображений.
Сравнение state-of-the-art моделей на Yoga-82
Исследователи протестировали state-of-the-art модели для классификации позы на Yoga-82. Ниже видно, что вариации DenseNet выдают более точные предсказания в сравнении с остальными моделями.