Исследователи из FAIR перенесли существующую модель для распознавания позы человека на шимпанзе. Модель основывается на архитектуре DensePose и R-CNN. Помимо модели, исследователи опубликовали два датасета с размеченными позами шимпанзе.
Описание проблемы
Последние исследования показали, что распознать позу человека возможно с высокой точностью при наличии большого набора размеченных данных. Можно применить тот же подход к задаче распознавания позы животных. Однако процесс сбора и разметки данных делает задачу ресурсоемкой. Исследователи показывают, что для шимпанзе возможно перенести часть знаний из существующих моделей распознавания поз людей. Чтобы осуществить перенос знаний с моделей, обученных на данных людей, на изображения шимпанзе, исследователи
- Используют DensePose нейросеть для распознавания позы человека;
- Вводят multi-head R-CNN, которая облегчает перенос знаний о задачах распознавания между разными классами объектов;
- Размечают изображения шимпанзе с помощью uncertainty heads
Шимпанзе были выбраны из-за геометрической схожести структуры тела с человеческим.
Что внутри модели
Цель работы — в том, чтобы разработать надстройку над DensePose, которая позволила бы обучать модель для новых классов с минимальными затратами на разметку. Существующие размеченные датасеты для распознавания объектов, сегментации и оценки позы являются источником данных для тестирования такой надстройки.
Исследователи взяли за основу оригинальную DensePose архитектуру, разметили изображения с шимпанзе и 3D модель шимпанзе и соотнесли DensePose, обученную на человеческих данных, с DensePose, обученной на данных шимпанзе. Подробнее о модификациях архитектуры можно почитать в статье.
Оценка работы модели
Чтобы убедиться, что модификации архитектуры были оправданы, исследователи провели ablation тест на датасете DensePose-COCO. Ниже видно, что итоговая предложенная модель обходит оригинальную DensePose-RCNN по Average Precision метрике.