Определение позы человека на изображении с помощью FBI

3D pose estimation based on 2D joints and Forward-or-Backward Information (FBI) for each bone
Определение позы человека с помощью информации о дальности расположения его конечностей относительно камеры

Беспилотное управление, виртуальная реальность, общение человека с компьютером, видеонаблюдение – области, в которых возможность определять позу человека на изображении играет ключевую роль. Значительные достижения в этой сфере были сделаны благодаря применению свёрточных нейронных сетей (Convolutional neural networks — CNN). Однако задача остаётся нерешённой для непостановочных сцен: трудно определить точную позу человека по изображению, снятому в естественных условиях.

Предлагаемый метод

Группа исследователей из города Шэньчжэнь (Китай) предложили новый метод для определения позы человека на изображении. А именно, они предлагают использовать информацию об удалённости каждой части человеческого тела от камеры. Они назвали эту информацию Forward-or-Backward Information (FBI).

В рамках рассматриваемого метода используется свёрточная нейросеть с двумя ветвями: первая ответственна за маркирование суставов тела на изображении, а вторая – за работу с FBI. Стоит отметить, что существует несколько современных методов, использующих только информацию о положении суставов для определения позы человека. Однако, такой метод некорректен, так как различным позам может соответствовать одно и то же расположение суставов на изображении. В свою очередь, использование информации о расположении суставов в совокупности с данными о расстоянии  между камерой и различными частями тела позволяет определить положение суставов уже в трёхмерном пространстве. На основе этих рассуждений авторы полагают, что анализ двух рассмотренных типов информации в глубокой регресcионной нейросети позволит предсказывать расположение суставов с более высокой точностью.

Distribution of out-of-plane angles for all bones marked as “uncertain”
Распределение количества отметок «положение не определено» по углам отклонения плоскости конечности от плоскости изображения

Датасет

Для стабилизации обучения нейросети исследователи разработали  специальный пользовательский интерфейс, с помощью которого маркировали FBI для 12,000 изображений. Задача была сведена к определению положения 14 частей тела в соответствии с тремя состояниями: близко, далеко, параллельно относительно плоскости изображения.

Для составления тренировочного датасета FBI были наняты люди, которые отмечали на произвольных изображениях из датасета MPII расположение частей тела по следующим критериям: «спереди», «позади» или «положение не определено» (подразумевается, что дать точный ответ затруднительно в виду параллельности части тела плоскости изображения). 20% всех отметок относились к критерию «положение не определено». График выше показывает распределение числа таких отметок по углам отклонения плоскости части тела относительно плоскости изображения. Как и можно было ожидать, люди чаще отмечают неопределённость, когда конечность почти параллельна к плоскости изображения.

Архитектура нейросети

Теперь давайте рассмотрим структуру используемой нейросети более детально.

Network architecture
Архитектура нейросети

Нейросеть имеет три составляющие:

  1. Pose Estimator — блок, ответственный за первичную оценку позы человека на изображении. Он принимает на вход изображение и выдаёт двумерную карту расположений 16 суставов человека на изображении.
  2. Определитель FBI. Эта часть принимает на вход изображение и выдаёт FBI 14-ти частей тела, разделённых по критериям «спереди», «позади» или «положение не определено». Эта часть нейросети начинается с последовательности свёрточных слоёв, за которыми следуют два последовательно расположенных модуля архитектуры hourglass. Полученные карты особенностей затем пропускаются через набор свёрточных слоёв, полностью соединённые слои и softmax-слой, благодаря чему на выходе мы получаем результат классификации по трём рассматриваемым критериям.
  3. Определитель позы (Pose Regressor – PR). В этой части регресионная нейросеть выявляет трёхмерные координаты суставов, принимая на вход их двумерные координаты и FBI. Чтобы учесть как можно больше информации, PR дополнительно принимает на вход матрицу вероятности, сгенерированную softmax-слоем. Таким образом, матрица двумерных координат и матрица вероятности соединяются, и с помощью полученной матрицы и двух каскадных блоков определяются трёхмерные координаты суставов, а следовательно, и расположения частей тела в трёхмерном пространстве.

Сравнение с существующими методами

Количественное сравнение было проведено на основе Human3.6M – датасета, содержащего 3.6 миллиона RGB изображений 7 профессиональных актёров, выполняющих 15 различных действий (прогулка, принятие пищи, сидение и т.д.). Средняя ошибка в определении позиции сустава (mean per joint position error – MPJPE) была использована как оценочная метрика. Результаты представлены в таблице 1.

Таблица 1. Качественное сравнение на основе MPJPE. Ordinal [19] – работа, схожая с предлагаемым методом. Наилучший результат без учёта этой работы помечен синим. Чёрным выделены наилучшие результаты с учётом это й работы.
Таблица 1. Качественное сравнение на основе MPJPE. Ordinal [19] – работа, схожая с предлагаемым методом. Наилучший результат без учёта этой работы помечен синим. Чёрным выделены наилучшие результаты с учётом это й работы
Для ряда работ результаты были выровнены в соответствии с реальными данными посредством rigid transformation – преобразования, сохраняющего расстояние между каждой парой точек. Результаты представлены в таблице ниже.

Таблица 2. Количественное сравнение, основанное на MPJPE после rigid transformation. Ordinal [19] – смежная с предлагаемым методом работа. Наилучший результат без учёта этой работы помечен синим. Чёрным выделены наилучшие результаты с учётом этой работы
Таблица 2. Количественное сравнение, основанное на MPJPE после rigid transformation. Ordinal [19] – смежная с предлагаемым методом работа. Наилучший результат без учёта этой работы помечен синим. Чёрным выделены наилучшие результаты с учётом этой работы.
Результаты количественного сравнения демонстрируют превосходство предлагаемого метода над более ранними подходами при определении практически всех поз. Необходимо отметить, что одна из работ, помеченная в таблицах как Ordinal [19], использует схожий подход и даёт сравнимые по качеству результаты. Отличие в том, что в этой работе при обучении выявляются глубокие взаимосвязи между всеми суставами на изображении. Такой способ обучения довольно утомителен, в отличие от способа, используемого в рассматриваемом методе.  

Для подтверждения эффективности предлагаемого метода при работе с непостановочными изображениями,  исследователи взяли 100 изображений из своего FBI-датасета и провели ещё одно сравнение с методом, предлагаемым Zhou и коллегами. В этом случае в качестве оценочной метрики был выбран коэффициент корректности FBI, полученной после распознавания позы. Метод Zhou и коллег показал коэффициент правильности 75%, в то время как рассматриваемый подход достиг результата в 78%. Кроме того, на рисунке ниже представлены результаты качественного сравнения этих методов.

Qualitative comparison results of the suggested method on some in-the-wild (ITW) images
Качественное сравнение результатов предлагаемого метода на примере изображений, снятых в произвольном ракурсе

В сухом остатке

Для более точного определения позы человека предлагаемый подход предполагает использование нового типа информации, названного Forward-or-Backward Information (FBI), благодаря чему он превосходит все ранее используемые техники. Кроме того, в рамках этой работы был сделан ещё один существенный вклад в развитие машинного обучения: создан датасет из 12,000 изображений с маркированной FBI. Датасет будет выложен в открытый доступ с целью помочь другим исследователям, работающим в области распознавания образов.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt