Определение позы человека на изображении с помощью FBI

3D pose estimation based on 2D joints and Forward-or-Backward Information (FBI) for each bone — Определение позы человека с помощью информации о дальности расположения его конечностей относительно камеры

Беспилотное управление, виртуальная реальность, общение человека с компьютером, видеонаблюдение – области, в которых возможность определять позу человека на изображении играет ключевую роль. Значительные достижения в этой сфере были сделаны благодаря применению свёрточных нейронных сетей (Convolutional neural networks — CNN). Однако задача остаётся нерешённой для непостановочных сцен: трудно определить точную позу человека по изображению, снятому в естественных условиях.

Предлагаемый метод

Группа исследователей из города Шэньчжэнь (Китай) предложили новый метод для определения позы человека на изображении. А именно, они предлагают использовать информацию об удалённости каждой части человеческого тела от камеры. Они назвали эту информацию Forward-or-Backward Information (FBI).

В рамках рассматриваемого метода используется свёрточная нейросеть с двумя ветвями: первая ответственна за маркирование суставов тела на изображении, а вторая – за работу с FBI. Стоит отметить, что существует несколько современных методов, использующих только информацию о положении суставов для определения позы человека. Однако, такой метод некорректен, так как различным позам может соответствовать одно и то же расположение суставов на изображении. В свою очередь, использование информации о расположении суставов в совокупности с данными о расстоянии между камерой и различными частями тела позволяет определить положение суставов уже в трёхмерном пространстве. На основе этих рассуждений авторы полагают, что анализ двух рассмотренных типов информации в глубокой регресcионной нейросети позволит предсказывать расположение суставов с более высокой точностью.

Distribution of out-of-plane angles for all bones marked as “uncertain” — Распределение количества отметок «положение не определено» по углам отклонения плоскости конечности от плоскости изображения

Датасет

Для стабилизации обучения нейросети исследователи разработали специальный пользовательский интерфейс, с помощью которого маркировали FBI для 12,000 изображений. Задача была сведена к определению положения 14 частей тела в соответствии с тремя состояниями: близко, далеко, параллельно относительно плоскости изображения.

Для составления тренировочного датасета FBI были наняты люди, которые отмечали на произвольных изображениях из датасета MPII расположение частей тела по следующим критериям: «спереди», «позади» или «положение не определено» (подразумевается, что дать точный ответ затруднительно в виду параллельности части тела плоскости изображения). 20% всех отметок относились к критерию «положение не определено». График выше показывает распределение числа таких отметок по углам отклонения плоскости части тела относительно плоскости изображения. Как и можно было ожидать, люди чаще отмечают неопределённость, когда конечность почти параллельна к плоскости изображения.

Архитектура нейросети

Теперь давайте рассмотрим структуру используемой нейросети более детально.

Network architecture — Архитектура нейросети

Нейросеть имеет три составляющие:

Pose Estimator — блок, ответственный за первичную оценку позы человека на изображении. Он принимает на вход изображение и выдаёт двумерную карту расположений 16 суставов человека на изображении.
Определитель FBI. Эта часть принимает на вход изображение и выдаёт FBI 14-ти частей тела, разделённых по критериям «спереди», «позади» или «положение не определено». Эта часть нейросети начинается с последовательности свёрточных слоёв, за которыми следуют два последовательно расположенных модуля архитектуры hourglass. Полученные карты особенностей затем пропускаются через набор свёрточных слоёв, полностью соединённые слои и softmax-слой, благодаря чему на выходе мы получаем результат классификации по трём рассматриваемым критериям.
Определитель позы (Pose Regressor – PR). В этой части регресионная нейросеть выявляет трёхмерные координаты суставов, принимая на вход их двумерные координаты и FBI. Чтобы учесть как можно больше информации, PR дополнительно принимает на вход матрицу вероятности, сгенерированную softmax-слоем. Таким образом, матрица двумерных координат и матрица вероятности соединяются, и с помощью полученной матрицы и двух каскадных блоков определяются трёхмерные координаты суставов, а следовательно, и расположения частей тела в трёхмерном пространстве.

Сравнение с существующими методами

Количественное сравнение было проведено на основе Human3.6M – датасета, содержащего 3.6 миллиона RGB изображений 7 профессиональных актёров, выполняющих 15 различных действий (прогулка, принятие пищи, сидение и т.д.). Средняя ошибка в определении позиции сустава (mean per joint position error – MPJPE) была использована как оценочная метрика. Результаты представлены в таблице 1.

Таблица 1. Качественное сравнение на основе MPJPE. Ordinal [19] – работа, схожая с предлагаемым методом. Наилучший результат без учёта этой работы помечен синим. Чёрным выделены наилучшие результаты с учётом это й работы. — Таблица 1. Качественное сравнение на основе MPJPE. Ordinal [19] – работа, схожая с предлагаемым методом. Наилучший результат без учёта этой работы помечен синим. Чёрным выделены наилучшие результаты с учётом это й работы

Для ряда работ результаты были выровнены в соответствии с реальными данными посредством rigid transformation – преобразования, сохраняющего расстояние между каждой парой точек. Результаты представлены в таблице ниже.

Таблица 2. Количественное сравнение, основанное на MPJPE после rigid transformation. Ordinal [19] – смежная с предлагаемым методом работа. Наилучший результат без учёта этой работы помечен синим. Чёрным выделены наилучшие результаты с учётом этой работы.

Результаты количественного сравнения демонстрируют превосходство предлагаемого метода над более ранними подходами при определении практически всех поз. Необходимо отметить, что одна из работ, помеченная в таблицах как Ordinal [19], использует схожий подход и даёт сравнимые по качеству результаты. Отличие в том, что в этой работе при обучении выявляются глубокие взаимосвязи между всеми суставами на изображении. Такой способ обучения довольно утомителен, в отличие от способа, используемого в рассматриваемом методе.

Для подтверждения эффективности предлагаемого метода при работе с непостановочными изображениями, исследователи взяли 100 изображений из своего FBI-датасета и провели ещё одно сравнение с методом, предлагаемым Zhou и коллегами. В этом случае в качестве оценочной метрики был выбран коэффициент корректности FBI, полученной после распознавания позы. Метод Zhou и коллег показал коэффициент правильности 75%, в то время как рассматриваемый подход достиг результата в 78%. Кроме того, на рисунке ниже представлены результаты качественного сравнения этих методов.

Qualitative comparison results of the suggested method on some in-the-wild (ITW) images — Качественное сравнение результатов предлагаемого метода на примере изображений, снятых в произвольном ракурсе

В сухом остатке

Для более точного определения позы человека предлагаемый подход предполагает использование нового типа информации, названного Forward-or-Backward Information (FBI), благодаря чему он превосходит все ранее используемые техники. Кроме того, в рамках этой работы был сделан ещё один существенный вклад в развитие машинного обучения: создан датасет из 12,000 изображений с маркированной FBI. Датасет будет выложен в открытый доступ с целью помочь другим исследователям, работающим в области распознавания образов.