Новые датасеты для оценки позы в 3D

12 ноября 2018

Новые датасеты для оценки позы в 3D

Оценка позы в 3D — фундаментальная задача компьютерного зрения. Способность компьютера распознавать людей на изображениях и видео применяется в беспилотном вождении, распознавании действий, взаимодействии человека с компьютером, дополненной реальности и робототехнике. В…

Оценка позы в 3D — фундаментальная задача компьютерного зрения. Способность компьютера распознавать людей на изображениях и видео применяется в беспилотном вождении, распознавании действий, взаимодействии человека с компьютером, дополненной реальности и робототехнике.

В последние годы ученые добились прогресса в оценке позы в 2D. Важный фактор успеха — наличие больших размеченных датасетов поз человека, которые позволяют обучать сети распознавать позы в 2D. В то же время, успехи в оценке позы в 3D остаются ограниченными, поскольку сложно получить точную информацию о глубине, движении, сегментации частей тела и окклюзии.

В этой статье мы представляем три недавно созданных датасета, которые пытаются решить проблему нехватки аннотированных наборов данных для оценки позы в 3D.

DensePose

Количество изображений: 50 000

Количество меток: 5 000 000

Год выпуска: 2018

 

DensePose — это крупный датасет с метками соответствия изображение-поверхность, вручную помеченный на 50000 изображениях COCO. Датасет создан Facebook AI Research. Команда привлекла сотрудников, которые вручную задавали соответствие глубины на 2D изображениях и поверхностей, отвечающих телам людей, с помощью специально разработанного ПО для аннотирования.

Как показано ниже, на первом этапе сотрудники определяют области, соответствующие видимым, семантически определенным частям тела. На втором этапе каждая часть области разбивается на подобласти с помощью набора точек, и аннотаторы приводят эти точки в соответствие с поверхностью. Исследователи хотели избежать вращения поверхности вручную для этой цели и предоставили сотрудникам 6 изображений с разных точек зрения, чтобы позволить им ставить метки с любого ракурса.

Схема аннотирования

Ниже представлены визуализации аннотаций на изображениях из набора для проверки: изображения (слева), U (посередине) и V (справа) для собранных точек.

Визуализация аннотаций

DensePose — это первый собранный вручную истинный датасет для оценки позы по глубине.

SURREAL

Количество кадров: 6 500 000

Количество объектов: 145

Год выпуска: 2017

Создание реалистичных искусственных изображений

SURREAL (Synthetic hUmans foR REAL tasks) — это новый большой датасет с искусственными, но реалистичными изображениями людей, получаемыми из трехмерных последовательностей данных захвата человеческого движения. Он включает 6 миллионов кадров с аннотациями, такими как поза, карты глубины и маски сегментации.

Как описано в статье, изображения в SURREAL получаются из трехмерных последовательностей данных MoCap. Степень реалистичности искусственных изображений обычно ограничена. Чтобы обеспечить реалистичность человеческих тел в этом датасете, исследователи решили создать искусственные тела с использованием модели SMPL, параметры которой подбирались с помощью MoSh по необработанному массиву 3D-маркеров MoCap. Более того, авторы датасета SURREAL обеспечили большое разнообразие углов зрения, одежды и освещения.

Ниже приведена схема создания искусственной модели человеческого тела:

  • человек фотографируется для получения 3D модели тела;
  • происходит рендеринг кадра с использованием фонового изображения, карты текстуры тела, освещения и положения камеры;
  • все «ингредиенты» генерируются случайным образом для увеличения разнообразия данных;
  • сгенерированные RGB изображения сопровождаются 2D/3D позами, нормалями к поверхности, потоком света, картами глубины и картами сегментации частей тела.
Схема получения искусственных данных

Получившийся датасет содержит 145 объектов, >67.5 тыс видео и >6.5 млн кадров:

 

Несмотря на то, что SURREAL содержит искусственные изображения, исследователи, создавшие этот датасет, демонстрируют, что CNN-сети, прошедшие обучение в SURREAL, позволяют получать точную оценку карты глубины и сегментацию частей тела в реальных RGB изображениях. Как следствие, этот датасет предоставляет новые возможности для улучшения методов 3D-оценки позы с использованием большого количества искусственных данных.

UP-3D

Количество объектов: 5 569

Количество изображений: 5 569 изображений для обучения и 1208 тестовых изображений

Год выпуска: 2017

Снизу: сгенерированные модели 3D тела в различных датасетах, послужившие основой UP-3D. Сверху: улучшенные 3D-модели могут расширить исходный датасет

UP-3D — это датасет, который «объединяет людей» из различных датасетов для решения множества задач. В частности, используя недавно введенный метод SMPLify, исследователи получили высококачественную трехмерную модель тела человека. Аннотаторы вручную сортировали модели на хорошие и плохие.

Этот датасет объединяет два датасета LSP (11 000 изображений для обучения и 1000 тестовых изображений) и часть датасета MPII-HumanPose (13 030 изображений для обучения и 2622 тестовых изображения). Хотя можно было использовать метод автоматической сегментации для генерации силуэтов переднего плана, исследователи решили для надежности привлечь сотрудников для аннотирования. Ученые создали интерактивный инструмент аннотации поверх пакета Opensurfaces для работы с Amazon Mechanical Turk (AMT) и использовали интерактивных алгоритм Grabcut для получения изображений границ силуэтов.

Таким образом, задача аннотаторов состояла в том, чтобы определить силуэты на переднем плане и выполнить сегментацию 6 частей тела.

В то время как в среднем задача маркировки переднего плана занимает 108 сек в LSP и 168 сек в MPII, сегментация занимает вдвое больше времени: 236 с.

Аннотаторы сортировали модели на хорошие и плохие. Ниже приведен процент принятых моделей в каждом датасете:

 

Таким образом, принятые модели сформировали датасет UP-3D с 5569 изображениями для обучения и 1208 тестовыми изображениями. После экспериментов по семантической сегментации частей тела, оценке позы и 3D-подбору улучшенные 3D-модели расширили исходный набор данных.

Результаты работы различных методов, обученных на метках, созданных с помощью датасета UP-3D

Датасет устанавливает новую планку уровня детализации — 31 метка для семантической сегментации частей тела с высокой точностью и 91 метка для оценки человеческой позы. Кроме того, обучение с использованием 91 метки улучшает качество оценки трехмерной человеческой позы на двух популярных датасетах HumanEva и Human3.6M.

Заключение

Существуют разные подходы к построению набора данных для оценки трехмерной человеческой позы. Представленные в статье датасеты сосредоточены на различных аспектах распознавания людей на изображениях. Тем не менее, все они могут быть полезны для оценки позы человека в реальных приложениях.


Интересные статьи: 

Новый метод переноса движений из видео на виртуального персонажа

9 ноября 2018

Новый метод переноса движений из видео на виртуального персонажа

Создание реалистичных, похожих на настоящих людей персонажей — важная задача компьютерной анимации. Анимация персонажей применяется в  создании мультфильмов, компьютерных игр, спецэффектов в кино и виртуальной реальности. Ранние работы Анимация персонажей…

Создание реалистичных, похожих на настоящих людей персонажей — важная задача компьютерной анимации. Анимация персонажей применяется в  создании мультфильмов, компьютерных игр, спецэффектов в кино и виртуальной реальности.

Ранние работы

Анимация персонажей — сложная задача со множеством этапов. Автоматизация части этапов могла бы упростить и ускорить этот процесс.

Первые попытки автоматизации были сосредоточены на понимании физики и биомеханики и пытались сформулировать и воспроизвести модели движения для виртуальных персонажей. Совсем недавно стали изучаться подходы, ориентированные на работу с данными. Однако большинство таких подходов основано на захвате движения, что часто требует дорогостоящих инструментов и сложной предварительной обработки.

Новая идея

Недавно исследователи из Berkeley AI Research в Калифорнийском университете предложили новый подход, основанный на обучении с подкреплением, для обучения персонажей движениям из видео.

Сочетая оценку движений из видео и глубокое обучение с подкреплением, метод способен перенести движения из видео на анимационного персонажа. Кроме того, предлагаемый способ способен предсказать движение человека по неподвижным изображениям путем прямого моделирования обучающих контроллеров.

Схема предлагаемого метода для обучения акробатическим движениям по видео с Youtube

Метод

Исследователи предложили фреймворк, который принимает на вход видео и моделирует персонажа, имитирующего движение. Подход основан на оценке позы в кадрах видео, которая позднее используется для восстановления движения и его имитации.

Входное видео обрабатывается на этапе оценки позы, где для оценки позы актера в каждом кадре применяются вычисленные оценки 2D и 3D позы. Далее, множество предложенных поз отправляется на этап восстановления движения, где опорная траектория движения оптимизирована таким образом, что она согласуется как с 2D, так и с и 3D предсказаниями позы и соблюдает временное соответствие между кадрами. Опорное движение затем используется на этапе имитации движения, где происходит обучение для того, чтобы движение персонажа воспроизводило опорное движение в моделируемой среде.

Этап оценки позы

Первым шагом в схеме является этап оценки позы. На этом этапе целью является оценка позы  по одному неподвижному изображению, то есть по каждому кадру видео. На данном этапе необходимо решить ряд проблем, чтобы получить точную оценку позы. Во-первых, изменчивость положения тела у разных людей, выполняющих одно и то же движение, очень высока. Во-вторых, оценка позы должна выполняться в каждом кадре независимо от предыдущего или следующего кадров без учета временной согласованности.

Чтобы решить обе проблемы, исследователи предлагают использовать проверенные методы оценки позы и простой метод аугментации данных для улучшения предсказаний позы при выполнении акробатических движений.

Ученые обучили модель на расширенном датасете и получили оценки 2D и 3D позы для каждого кадра, которые определяют 2D и 3D траектории движения.

Сравнение движений, создаваемых на различных этапах метода для моделирование прыжка. Сверху вниз: входной видеоролик, оценка 3D-позы, оценка 2D-позы, моделируемый персонаж.

Этап восстановления движения

На этапе восстановления движения независимые предсказания сводятся к окончательному эталонному движению. Конечной целью этапа является улучшение качества опорных движений путем исправления ошибок и удаления артефактов движения, проявляющихся как нефизическое поведение. По мнению исследователей, эти артефакты движения возникают из-за несогласованных предсказаний в соседних кадрах.

Опять же, на этом этапе применяется метод оптимизации общей траектории трехмерной позы для оценки позы и обеспечения временной согласованности между последовательными кадрами. Оптимизация выполняется в скрытом слое с использованием архитектуры энкодер-декодер.

Этап имитации движения

На заключительном этапе применяется глубокое обучение с подкреплением. С точки зрения машинного обучения цель — обучить сеть так, чтобы персонаж воспроизводил движения. Исходное движение, извлеченное ранее, используется для определения целевого результата моделирования, и затем проводится подготовка метода для имитации данного движения.

Для улучшения работы метода вводится функция вознаграждения, которая стимулирует персонажа лучше отслеживать отличие совокупности вращений частей тела при движении от эталонного. Фактически, происходит вычисление кватернионных различий между вращением сустава персонажа и совместными вращениями выделенного эталонного движения.

Финальный результат метода: персонажи имитируют движение

Результаты

Чтобы продемонстрировать работу фреймворка и оценить предложенный метод, исследователи используют трехмерного человекоподобного персонажа и смоделированного робота Atlas. Качественная оценка выполнили, сравнивая снимки персонажей с оригинальными видео. Все видеоролики были собраны с YouTube. На них изображены люди, выполняющие различные акробатические движения. Определить количественную разницу между движем человека и персонажа трудно, поэтому производительность метода оценивалась по отношению к извлеченному опорному движению. На рисунках ниже приведены кадры реальных видеороликов и кадры с персонажами для качественной оценки.

Смоделированный робот Atlas, выполняющий движения из видео
Качественная оценка с использованием смоделированных персонажей, выполняющих различные движения из видео

Выводы

Предлагаемый подход показывает хорошие результаты для переноса анимации из одного входящего видео. Объединение методов оценки позы, восстановления позы и обучения с подкреплением позволяет перенести движения на персонажа с высокой точностью. В работе показаны преимущества модульной конструкции. Улучшения, которые относятся к разным этапам, можно включить на более поздних этапах для повышения эффективности работы всего фреймворка.

Метод точной оценки позы в 6DoF от исследователей Nvidia

13 сентября 2018
DeepIM 6DoF

Метод точной оценки позы в 6DoF от исследователей Nvidia

Разработчики Nvidia создали алгоритм DeepIM, который превосходит в точности существующие методы оценки положения объекта в 6DoF, что важно для роботов и VR приложений. Роборука предварительно анализирует положение объекта в пространстве и предказывает,…

Разработчики Nvidia создали алгоритм DeepIM, который превосходит в точности существующие методы оценки положения объекта в 6DoF, что важно для роботов и VR приложений. Роборука предварительно анализирует положение объекта в пространстве и предказывает, как изменится положение объекта при перемещении. Чем точнее оценка и предсказание позы, тем точнее он захватывает объект и тем аккуратнее его перемещает, не задевая другие объекты в пространстве.

6DoF

DoF — степень свободы позы (degrees of freedom). Объект может перемещаться по трем осям и вращаться вокруг каждой, отсюда название 6DoF. Например, в шутерах применяется 4DoF степень свободы — субъект не может накрениться и вращается только вокруг вертикальной оси.

Обучение нейросети

Команда обучила нейросеть на 13 объектах из датасета LINEMOD, используя графические процессоры NVIDIA Tesla V100, с картой MXNet и ускоренной cuDNN. Алгоритм тренировали на 12000 сгенерированных изображений со случайными позами для каждого объекта. Помимо распознавания позы на цветном изображении, нейросеть обучается прогнозированию относительной трансформации SE, которая применяется к первоначальной оценке позы для уточнения итеративной позы.

6DoF pose estimation results comparison
Сравнение результатов с другими state-of-the-art методами

«Работа открывает новые направления для будущих исследований. Например, мы ожидаем, что стерео версия DeepIM сможет еще больше улучшить точность оценки позы. Кроме того, DeepIM подтверждает, что можно уточнять оценку позы в 6D, используя только цветные изображения. Это позволит использовать камеры с высоким разрешением при высокой частоте кадров и с большим полем обзора, обеспечивая точную оценку позы роботами» — отмечают разработчики.

Команда представляет исследование на конференции ECCV в Мюнхене на этой неделе.

«Танцуют все!» — невероятное качество Motion Transfer для видео

30 августа 2018
everybody dance now

«Танцуют все!» — невероятное качество Motion Transfer для видео

Плохо умеете танцевать? Больше не проблема! Удивите своих друзей ошеломляющим видео, где вы танцуете, как суперзвезда. Исследователи из Беркли предложили новый способ motion trasfer для видео. Они утверждают, что способны перенести исполнение…

Плохо умеете танцевать? Больше не проблема! Удивите своих друзей ошеломляющим видео, где вы танцуете, как суперзвезда. Исследователи из Беркли предложили новый способ motion trasfer для видео. Они утверждают, что способны перенести исполнение танца с исходного видео на целевое всего за несколько минут.

Предыдущие работы

За последние два десятилетия motion transfer (трансфер или ретаргетинг движений) привлек значительное внимание со стороны исследователей. Ранние подходы заключались в создании нового видеоматериала путем манипулирования существующими.

Так какая же идея лежит за новым подходом?

State-of-the-art идея

Исследователи из Беркли поставили перед собой задачу покадрового преобразования изображений с пространственно-временным сглаживанием. Обнаружение позы представленно палочным скелетом, как промежуточное представление между источником и целью. Supervised обучение происходит на основе переноса движений со скелета на целевого персонажа.

Два дополнительных компонента улучшают результаты:

  • условное предсказание в каждом кадре в сравнении с предыдущим шагом для временной гладкости;
  • специализированной GAN для реалистичного синтеза лица.

Прежде чем погрузиться в архитектуру предлагаемого подхода, давайте проверим результаты с помощью этого короткого видео:

По существу, модель обучается производству персонализированных видеороликов для определенного целевого объекта. Трансфер движения происходит, когда на скелет из обученной модели «надевают» оболочку цели, чтобы получить аналогичную оригиналу позу.

Метод

Предлагаемый метод состоит из 3 частей:

  1. Обнаружение позы — с использованием предобученного современного детектора позы для скелета из исходного видео.
  2. Глобальная нормализация позы — учет различий между источником и целевыми объектами в фигурах и местоположении в кадре.
  3. Сопоставление нормализованных скелетов и целевого объекта.

Ниже приведен обзор метода:

Обзор метода motion transfer
Обзор метода

Для обучения модель использует детектор позы P для создания скелета из видеокадров целевого объекта. Тогда отображение G обучается вместе с состязательным дискриминатором D, который пытается отличить «реальную» пару соответствий (x, y) и «поддельную» пару (G (x), y).

Далее, для передачи, детектор позы P помогает получить стыковые суставы для источника. Затем они преобразуются с нормализацией процесса Norm в суставы для цели, для которой создается скелет. Наконец, применяется обученное отображение G.

Исследователи основывают свой метод на задаче, представленной в pix2pixHD, с некоторыми расширениями для создания временной согласованности видеокадров и генерации реалистичных изображений лица.

Временное сглаживание

Чтобы создать видеоряд, они модифицируют генерацию одного изображения, чтобы обеспечить временную согласованность между соседними кадрами, как показано на рисунке ниже:

Настройка временного сглаживания
Настройка временного сглаживания

Проще говоря, текущий кадр G (xt) обусловлен его соответствующим скелетом xt и ранее синтезированным кадром G (xt-1) для получения гладкой картинки на выходе. Дискриминатор D затем пытается дифференцировать «реальную» временную согласованность последовательность (xt-1, xt, yt-1, yt) из «поддельной» последовательности (xt-1, xt, G (xt-1), G (xt) ).

Настройка FaceGAN

Исследователи дополнительно расширяют модель с помощью специальной настройки GAN, предназначенной для добавления деталей и реализма лица, как показано на рисунке ниже. А точнее, модель использует один дискриминатор 70 × 70 Patch-GAN для дискриминатора лица.

Face GAN setup

Теперь перейдем к результатам экспериментов …

Результаты

Целевые объекты записывались в течение 20 минут в режиме реального времени со скоростью 120 кадров в секунду. Кроме того, учитывая, что сеть не кодирует информацию об одежде, целевые танцоры носят туго натянутую одежду с минимальным складками.

Видео с источниками было найдено онлайн — это видео высокого качества, на которых исполняется танец.

Ниже приведены результаты, где верхняя строка показывает объект-источник, средняя показывает нормализованные скелеты, а нижняя отображает выходные данные модели:

Трансфер для 5 последовательных кадров
Трансфер для 5 последовательных кадров

В приведенных ниже таблицах показаны результаты полной модели (с временным сглаживанием и настройками FaceGAN) по сравнению с базовой моделью (pix2pixHD) и базовой моделью с настройкой временного сглаживания. Качество отдельных кадров оценивалось с помощью измерения Structural Similarity (SSIM) и Learned Perceptual Image Patch Similarity (LPIPS).

table 01

Сравнение результатов синтеза для <span class=
разных моделей (T.S .: модель с временным сглаживанием, T.S. + Face: полная модель с настройкой временного сглаживания и FaceGAN)»> Сравнение результатов синтеза для разных моделей (T.S .: модель с временным сглаживанием, T.S. + Face: полная модель с настройкой временного сглаживания и FaceGAN)

Чтобы дополнительно проанализировать качество результатов, исследователи запускают детектор позы P на выходах каждой модели и сравнивают полученные ключевые точки с позой исходного видео. Если все части тела синтезированы правильно, то реконструированная поза должна быть похожа на исходную позу. См. Результаты в таблицах ниже:

table 1

Как видно из таблиц, временная сглаживающая настройка, похоже, не добавляет значительных результатов в baseline, если смотреть только на количественные результаты. Однако временная сглаживающая настройка помогает с плавными движениями, согласованностью цветов по кадрам, а также в индивидуальном синтезе кадров.

С другой стороны, настройка FaceGAN улучшает как количественные, так и качественные результаты модели. Как видно из приведенных ниже рисунков, этот компонент добавляет значительную детализацию к выходному видео и обеспечивает реалистичную генерацию частей тела.

Сравнение изображений лиц, полученных различными моделями, в наборе валидации
Сравнение изображений лиц, полученных различными моделями, в наборе валидации

Вывод

Представленная модель способна создавать реалистичные и достаточно длинные видеоролики человека, осуществляющего танцевальные движения, которые есть на видео-источнике. Однако результаты по-прежнему часто страдают от дрожания. Это особенно характерно, когда перемещение или скорость перемещения отличаются от движений, наблюдаемых во время обучения.

Учитывая, что дрожь остается, даже если человек пытается скопировать движения объекта-источника на тренировочных данных, исследователи полагают, что дрожание может также возникнуть из-за разницы между тем, как движутся исходный и целевой объекты с учетом их уникальных структур тела. Тем не менее, этот подход к трансферу движения уже способен генерировать привлекательные видеоролики на разных данных.

Может быть интересно:

DeepLabCut — новый инструмент для оценки позы и захвата движений

30 августа 2018
DeepLabCut

DeepLabCut — новый инструмент для оценки позы и захвата движений

Исследователи из Гарварда разработали DeepLabCut — инструмент для автоматической оценки позы и разметки движущихся частей тела животных и людей. Обычно, чтобы отследить движения, исследователи записывают видео и вручную покадрово размечают изображения. В…

Исследователи из Гарварда разработали DeepLabCut — инструмент для автоматической оценки позы и разметки движущихся частей тела животных и людей. Обычно, чтобы отследить движения, исследователи записывают видео и вручную покадрово размечают изображения. В новом подходе учёные предлагают технологию для автоматизации и ускорения этого процесса.

Идея состояла в том, чтобы уловить крошечные движения, которые вместе составляют более заметное. DeepLabCut можно применять в биомеханике для изучения работы мозга животных, а также в физиотерапии и спорте.

«С помощью видео мы можем легко наблюдать и регистрировать поведение животных в различных условиях, но извлечение конкретных аспектов поведения для дальнейшего анализа может быть трудоемким», — отметили разработчики в статье.

Как работает DeepLabCut

DeepLabCut позволяет автоматически выполнять оценку позы и отслеживать движения. Для работы сначала загружаются размеченные изображения интересующего объекта, например, белки или крысы, и видео с тем, как она двигается. После этого загружают видео с нужной активностью (например, белка грызёт орех). Программа разметит части тела белки и будет отслеживать движения автоматически. Даже когда обозначено ~ 200 кадров, алгоритм обеспечивает отслеживаемость, которая сопоставима с точностью человеческой разметки.

Крыса

odortrail

detect

Муха

animals detection movements

Лошадь

horse1

Человек

human movements

Команда обучила нейросеть выполнять оценку позы и определять части тела на сотнях изображений из набора ImageNet, используя графические процессоры NVIDIA GeForce GTX 1080 Ti и NVIDIA TITAN Xp с расширенной cuDNN и библиотеку TensorFlow.

Инструмент доступен open source.

Сегментация людей на фотографии в сложных условиях

23 августа 2018

Сегментация людей на фотографии в сложных условиях

Понимание сцены — один из святых граалей сomputer vision. Проводится множество исследований, чтобы достичь абсолютного понимания того, что происходит на картинке. Получение любой дополнительной информации из изображения позволяет продвинуться по…

Понимание сцены — один из святых граалей сomputer vision. Проводится множество исследований, чтобы достичь абсолютного понимания того, что происходит на картинке. Получение любой дополнительной информации из изображения позволяет продвинуться по этой стезе.

Главный акцент в ранних работах был в основном на простых задачах, так как было необходимо достичь некоторого минимального уровня описания и понимания сцены. Однако, в последние годы решаются все более и более сложные проблемы (по крайней мере частично).

Задача и подзадачи

Мы видим значительное продвижение в области получения 3D-информации из плоского изображения. Недавняя работа DeepMind AI продемонстрировала возможности рендеринга трехмерного изображения из двумерного. Решение таких задач расширяет границы человеческого понимания о изображениях.

Исследователи из французского института INRIA и Facebook AI Research предложили метод распознавания сложных человеческих поз. В своей работе они представляют технику глубокого обучения, с помощью которой им удалось получить 3х-мерное поверхностное представление человеческого тела из двумерной картинки. Как было упомянуто выше, восприятие сцены и контекста, бьется на небольшие подзадачи:

  • детектирование,
  • классификация,
  • локализация и так далее.

Новый метод оценки позы, описанный в этой работе, рассматривает данные проблемы в качеств предпосылок, и он основывается на решении этих подзадач. Помимо предлагаемой архитектуры для обучения поверхностного представления человеческого тела, авторы создали крупный набор данных, который задает преобразование из картинки в поверхностное представление. Они вручную проаннотировали более 50 тысячи изображение из COCO датасета.

COCO-DensePose датасет

Наличие большого и качественного набора данных очень важно для обучения с учителем. Задачи требуют отличной друг от друга маркировки данных, и очень часто это представляет собой узкое место в процессе моделирования. По этой причине исследователи создали аннотированный набор данных картинку-в-поверхность, взяв 50000 изображений из набора данных COCO. Они ввели новый набор данных под названием COCO-DensePose вместе с оценочными метриками. Новый набор данных создается путем внедрения “умного” конвейера аннотаций, позволяющего максимально уменьшить потребность в человеческих усилиях. Аннотация включает в себя сегментирование изображения, маркировку соответствий с использованием модели SMPL для получения UV-полей.

Конвейер аннотации

Архитектура сети

Чтобы решить проблему оценки поверхности человеческого тела из плоских 2D-изображений, авторы представляют проблему, как регрессию координат поверхности тела в пикселе изображения. Вручную аннотируя датасет, они используют архитектуру глубокой нейронной сети — MaskRCNN, которая обучается с учителем. Они объединяют сеть Mask-RCNN с DenseReg (Dense Regression System) для получения соответствий между RGB-изображением и 3D-моделью поверхности тела.

DensePose-RCNN архитектура

Первая архитектура, которая используется, представляет собой полностью сверточную сеть (FCNN), объединяющую классификацию и регрессию. Первая часть выполняет сегментацию изображения, классифицируя пиксели на один из нескольких классов: фон или конкретная область тела. Таким образом, грубая оценка соответствия координат поверхности передается второй части, которая занимается регрессией для абсолютных значений координат.

В первой части используется пиксельная кросс-энтропийная функция потерь. Вторая, то есть регрессия абсолютных значений координат, определяется как отображение пикселя в точку в двумерной системе координат, заданной параметризацией каждой части (части тела человека). Фактически вторая часть действует, как поправка к классификации первой части. Поэтому регрессионные потери учитываются только в том случае, если пиксель находится в пределах определенной части. Наконец, каждый пиксель отображается в U, V координаты параметризации каждой части тела (в этом случае каждая из 25 определенных частей тела).

Результат работы метода (слева). Новый набор данных с сегментацией тела и параметризацией в новой 2D-системе координат (справа)

Авторы улучшили метод, введя регрессию по областям. Они вводят FCNN поверх ROI-pooling, которая целиком посвящена двум задачам: классификация и формировании базы регрессии, которая определяет, что это за область, и предсказывает координаты области.

Окончательная архитектура состоит из каскада proposing regions-of-interest (ROI), извлекающий особенности области  посредством ROI pooling и предоставляющий результаты в соответствующие ветки.

Финальная кросс-каскадная архитектура

Cross-modal supervision

Дальнейшее улучшение достигается за счет введения cross-modal supervision. Слабый supervion сигнал определяется путем аннотации небольшого подмножества пикселей на каждом обучающем экземпляре. Обучение сети таком образом допустимо, если исключить потери пикселей, которые не имеют соответствия в тренировочном датасете (ground-truth correspondance), при подсчете функции потерь для пикселей.

Однако для дальнейшего усиления supervision сигнала исследователи предлагают кросс-модальный подход с сетью-учителем, которая занимается отображением  разреженной аннотированной поверхности на полностью аннотированную поверхность человеческого тела.

Cross-modal supervision используется путем включения сети-учителя, которая «дорисовывает» недостающие пиксели

Оценка и выводы

Сравнение с другими методами приведено в таблицах ниже. Стоит отметить, что сравнение между этим подходом и предыдущим подходом должно быть тщательно рассмотрено, поскольку новый метод использует новый набор данных, который они создали — DensePose-COCO.

AUC сравнение с разными методами
AUC и IoC сравнение с другими архитектурами и подходами

geodesic errorКачественная и количественная оценки показывают, что метод способен с высокой точностью определять координаты поверхности тела, способен обрабатывать большое количество окклюзий и различные позы. Более того, результаты показывают, что полностью сверточный подход уступает данному новому методу.

testing the method

Результаты тестов на различных реальных изображениях

Neurohive Digest. Нейронные сети и искусственный интеллект. Выпуск 2

5 августа 2018
neurohive news digest 2

Neurohive Digest. Нейронные сети и искусственный интеллект. Выпуск 2

Ссылки на материалы из выпуска: 1. Искусственный интеллект помогает прогнозировать урожай в Аргентине и Бразилии 2. Моделирование новой позы человека на изображении с помощью нейросети.

Ссылки на материалы из выпуска:

1. Искусственный интеллект помогает прогнозировать урожай в Аргентине и Бразилии

2. Моделирование новой позы человека на изображении с помощью нейросети.

Метод моделирования новых поз человека на изображении

19 июля 2018
Моделирование позы на фотографии

Метод моделирования новых поз человека на изображении

Люди обладают удивительной способностью воображения. Воображение и обучение на опыте лежат в основе нашего интеллекта. Обе эти способности связаны – воображение работает благодаря памяти и опыту. Поэтому мы можем определить…

Люди обладают удивительной способностью воображения. Воображение и обучение на опыте лежат в основе нашего интеллекта. Обе эти способности связаны – воображение работает благодаря памяти и опыту. Поэтому мы можем определить форму объекта, даже если рассматриваем его только с одной стороны, можем представить движение или деформацию объекта только взглянув на него в статическом положении. Память дает нам возможность представлять сложные вещи. К примеру, как будет выглядеть тот или иной человек в различных позах.

Исследователи из Массачусетского технологического института рассмотрели задачу моделирования человеческой позы на изображении. При помощи фотографии человека и модели целевой позы (target pose) нейросеть создаёт реалистичное изображение:

unseen poses

В данной работе исследователи объединяют несколько техник и ставят задачу синтезирования позы человека на изображении в контексте глубокого обучения. Предлагаемый подход уникален, так как его использование в машинном обучении позволяет создавать реалистичные изображения.

Постановка проблемы

Постановка проблемы: перестраивание позы человека с помощью заданного изображения и модели конкретной позы:

изменение позы с помощью нейросетей

С точки зрения постановки проблемы, задача моделирования человеческой позы нетривиальна, так как существует несколько важных аспектов, которые необходимо учитывать.

  • Во-первых, генерируемое изображение должно быть максимально реалистичным;
  • Во-вторых, изменение позы требует сегментации человека и других объектов на изображении;
  • В-третьих, моделирование новой позы оставляет пустые места на заднем плане, которые должны быть надлежащим образом заполнены.

Корректировка этих изменений на изображении – сложная задача. В своей работе исследователи решают эту задачу, разделяя её на подпроблемы, решаемые отдельными модулями. Фактически, они создают модульную архитектуру, состоящую из нескольких частей, каждая из которых решает отдельные задачи и обеспечивает реалистичный синтез изображений. Предлагаемая модель состоит из 4-х модулей:

A. Модуль сегментации исходного изображения;

B. Модуль пространственной трансформации;

C. Модуль синтеза переднего плана;

D. Модуль синтеза фона.

Предлагаемая архитектура, состоящая из 4-х модулей.
Предлагаемая архитектура, состоящая из 4-х модулей

Сегментация исходного изображения

Артефакты на изображении, возникающие при трансформации позы, часто бывают следующими: появление дополнительных частей тела, большие смещения конечностей и наложение частей тела. Чтобы преодолеть эти проблемы, первый модуль сегментирует исходное изображение. Сегментация двухуровневая: сначала изображение разделяется на передний план и фон, а затем передний план (человек) сегментируется на части тела: руки, ноги и т.д. Поэтому на выходе этапа сегментации есть один фоновый слой и L передних слоев, соответствующих каждой из L предварительно сегментированных частей тела.

Gaussian bumps сегментация
Сегментация частей тела

В качестве входных данных вводится совокупность исходного изображения и моделей начальной и желаемой поз. В отличие от исходного изображения, которое является RGB-изображением, позы определяются как стек из нескольких слоев. Поза представляет собой трехмерный объект, заданный в R (HxWxJ). Каждый из J-слоев (или каналов) в представлении позы содержит Гауссову кривую, центрированную в координатах (x,y) каждого сустава. Гауссово представление (вместо детерминированного представления) вводит определённую степень регуляризации, поскольку совместные оценки местоположения могут быть часто зашумлены и неточны. При проведении тестов авторы сегментировали 14 частей тела (голова, шея, плечи, локти, запястья, бедра, колени и лодыжки).

Результаты работы модуля сегментации

Модуль сегментации представляет собой нейросеть U-Net, которая принимает конкатенированный объем входного изображения и слоев позы в качестве входных данных и выдает L-слоев, определяя примерное местоположение каждого сустава. Выходной сигнал фактически представляет собой двумерную Гауссову маску над пространственной областью каждой части тела, которая позволяет получить желаемую сегментацию.

  1. Пространственная трансформация. Сегментированные слои из модуля сегментации преобразуютсятаким образом, чтобы соответствовать желаемым частям позы. Пространственное преобразование не изучается, а непосредственно вычисляется из входных моделей поз.
  2. Синтез переднего плана. Модуль синтеза переднего плана представляет собой U-образную нейросеть, которая принимает пространственно преобразованные слои со слоями моделируемой позы в виде конкатенированного объема и выдает два разных результата — первый из них является необходимым передним планом, а второй — необходимой маской.
  3. Синтез фона. Задача, которую решает модуль синтеза фона, заключается в заполнении отсутствующего, который закрывается человеком во входном изображении. Этот модуль также является U-сетью, работающей с объемом входного изображения (наряду с гауссовым шумом вместо пикселей переднего плана) и маской позы на входе. Он выводит реалистичный фон без переднего плана — то есть без человека на изображении.

Результаты работы отдельных модулей, создающих новое изображение.

Синтез изображений

Наконец, составляется взвешенная линейная комбинация необходимого фонового и переднепланового изображений (см. формулу ниже).

формула

Как и во многих генеративных нейросетях, исследователи предлагают использовать дискриминатор, чтобы генерировать реалистичные изображения. Генеративная модель была обучена с использованием функций потерь L1, L-VGG и L-VGG + GAN с использованием бинарной классификационной ошибки дискриминатора.

Результаты, полученные с использованием различных функций потерь
Результаты, полученные с использованием различных функций потерь
График распределения количества пикселей по градиенту амплитуды для различных функций потерь
График распределения количества пикселей по градиенту амплитуды для различных функций потерь

Оценка

Оценка метода производилась на примере роликов на Youtube. Эксперименты проводились с использованием видеороликов, на которых происходили три класса действий: игра в гольф (136 роликов), занятие йогой (60 роликов) и занятие теннисом (70 роликов).

сравнение c U-net и VGG
Сравнение ошибки в различных метриках и баллов SSIM предлагаемого метода и Unet нейросети
сравнение методов сентезирования позы
Результаты работы нейросети
Сравнение результатов, полученных с использованием различных функций потерь
Сравнение результатов, полученных с использованием различных функций потерь

В сухом остатке

Количественные и качественные оценки показывают, что с использованием предлагаемого метода можно создавать реалистичные изображения для разного класса действий. Нейросеть обучается на роликах, показывающих различные классы действий и способна моделировать новые позы для каждого изображения в роликах (например, игрок в гольф оказывается в позе теннисиста). Предлагаемый подход оказался успешным при решении поставленной задачи моделирования поз и является очередной ступенью на пути создания полноценного искусственного интеллекта.

Определение позы человека на изображении с помощью FBI

16 июля 2018
3D pose estimation based on 2D joints and Forward-or-Backward Information (FBI) for each bone

Определение позы человека на изображении с помощью FBI

Беспилотное управление, виртуальная реальность, общение человека с компьютером, видеонаблюдение – области, в которых возможность определять позу человека на изображении играет ключевую роль. Значительные достижения в этой сфере были сделаны благодаря…

Беспилотное управление, виртуальная реальность, общение человека с компьютером, видеонаблюдение – области, в которых возможность определять позу человека на изображении играет ключевую роль. Значительные достижения в этой сфере были сделаны благодаря применению свёрточных нейронных сетей (Convolutional neural networks — CNN). Однако, задача остаётся нерешённой для непостановочных сцен: трудно определить точную позу человека по изображению, снятому в естественных условиях.

Предлагаемый метод

Группа исследователей из города Шэньчжэнь (Китай) предложили новый метод для определения позы человека на изображении. А именно, они предлагают использовать информацию об удалённости каждой части человеческого тела от камеры. Они назвали эту информацию Forward-or-Backward Information (FBI).

В рамках рассматриваемого метода используется свёрточная нейросеть с двумя ветвями: первая ответственна за маркирование суставов тела на изображении, а вторая – за работу с FBI. Стоит отметить, что существует несколько современных методов, использующих только информацию о положении суставов для определения позы человека. Однако, такой метод некорректен, так как различным позам может соответствовать одно и то же расположение суставов на изображении. В свою очередь, использование информации о расположении суставов в совокупности с данными о расстоянии  между камерой и различными частями тела позволяет определить положение суставов уже в трёхмерном пространстве. На основе этих рассуждений авторы полагают, что анализ двух рассмотренных типов информации в глубокой регресионной нейросети позволит предсказывать расположение суставов с более высокой точностью.

Distribution of out-of-plane angles for all bones marked as “uncertain”
Распределение количества отметок «положение не определено» по углам отклонения плоскости конечности от плоскости изображения

Датасет

Для стабилизации обучения нейросети исследователи разработали  специальный пользовательский интерфейс, с помощью которого маркировали FBI для 12,000 изображений. Задача была сведена к определению положения 14 частей тела в соответствии с тремя состояниями: близко, далеко, параллельно относительно плоскости изображения.

Для составления тренировочного датасета FBI были наняты люди, которые отмечали на произвольных изображениях из датасета MPII расположение частей тела по следующим критериям: «спереди», «позади» или «положение не определено» (подразумевается, что дать точный ответ затруднительно в виду параллельности части тела плоскости изображения). 20% всех отметок относились к критерию «положение не определено». График выше показывает распределение числа таких отметок по углам отклонения плоскости части тела относительно плоскости изображения. Как и можно было ожидать, люди чаще отмечают неопределённость, когда конечность почти параллельна к плоскости изображения.

Архитектура нейросети

Теперь давайте рассмотрим структуру используемой нейросети более детально.

Network architecture
Архитектура нейросети

Нейросеть имеет три составляющие:

  1. Pose Estimator — блок, ответственный за первичную оценку позы человека на изображении. Он принимает на вход изображение и выдаёт двумерную карту расположений 16 суставов человека на изображении.
  2. Определитель FBI. Эта часть принимает на вход изображение и выдаёт FBI 14-ти частей тела, разделённых по критериям «спереди», «позади» или «положение не определено». Эта часть нейросети начинается с последовательности свёрточных слоёв, за которыми следуют два последовательно расположенных модуля архитектуры hourglass. Полученные карты особенностей затем пропускаются через набор свёрточных слоёв, полностью соединённые слои и softmax-слой, благодаря чему на выходе мы получаем результат классификации по трём рассматриваемым критериям.
  3. Определитель позы (Pose Regressor – PR). В этой части регресионная нейросеть выявляет трёхмерные координаты суставов, принимая на вход их двумерные координаты и FBI. Чтобы учесть как можно больше информации, PR дополнительно принимает на вход матрицу вероятности, сгенерированную softmax-слоем. Таким образом, матрица двумерных координат и матрица вероятности соединяются, и с помощью полученной матрицы и двух каскадных блоков определяются трёхмерные координаты суставов, а следовательно, и расположения частей тела в трёхмерном пространстве.

Сравнение с существующими методами

Количественное сравнение было проведено на основе Human3.6M – датасета, содержащего 3.6 миллиона RGB изображений 7 профессиональных актёров, выполняющих 15 различных действий (прогулка, принятие пищи, сидение и т.д.). Средняя ошибка в определении позиции сустава (mean per joint position error – MPJPE) была использована как оценочная метрика. Результаты представлены в таблице 1.

Таблица 1. Качественное сравнение на основе MPJPE. Ordinal [19] – работа, схожая с предлагаемым методом. Наилучший результат без учёта этой работы помечен синим. Чёрным выделены наилучшие результаты с учётом это й работы.
Таблица 1. Качественное сравнение на основе MPJPE. Ordinal [19] – работа, схожая с предлагаемым методом. Наилучший результат без учёта этой работы помечен синим. Чёрным выделены наилучшие результаты с учётом это й работы
Для ряда работ результаты были выровнены в соответствии с реальными данными посредством rigid transformation – преобразования, сохраняющего расстояние между каждой парой точек. Результаты представлены в таблице ниже.

Таблица 2. Количественное сравнение, основанное на MPJPE после rigid transformation. Ordinal [19] – смежная с предлагаемым методом работа. Наилучший результат без учёта этой работы помечен синим. Чёрным выделены наилучшие результаты с учётом этой работы
Таблица 2. Количественное сравнение, основанное на MPJPE после rigid transformation. Ordinal [19] – смежная с предлагаемым методом работа. Наилучший результат без учёта этой работы помечен синим. Чёрным выделены наилучшие результаты с учётом этой работы.
Результаты количественного сравнения демонстрируют превосходство предлагаемого метода над более ранними подходами при определении практически всех поз. Необходимо отметить, что одна из работ, помеченная в таблицах как Ordinal [19], использует схожий подход и даёт сравнимые по качеству результаты. Отличие в том, что в этой работе при обучении выявляются глубокие взаимосвязи между всеми суставами на изображении. Такой способ обучения довольно утомителен, в отличие от способа, используемого в рассматриваемом методе.  

Для подтверждения эффективности предлагаемого метода при работе с непостановочными изображениями,  исследователи взяли 100 изображений из своего FBI-датасета и провели ещё одно сравнение с методом, предлагаемым Zhou и коллегами. В этом случае в качестве оценочной метрики был выбран коэффициент корректности FBI, полученной после распознавания позы. Метод Zhou и коллег показал коэффициент правильности 75%, в то время как рассматриваемый подход достиг результата в 78%. Кроме того, на рисунке ниже представлены результаты качественного сравнения этих методов.

Qualitative comparison results of the suggested method on some in-the-wild (ITW) images
Качественное сравнение результатов предлагаемого метода на примере изображений, снятых в произвольном ракурсе

В сухом остатке

Для более точного определения позы человека предлагаемый подход предполагает использование нового типа информации, названного Forward-or-Backward Information (FBI), благодаря чему он превосходит все ранее используемые техники. Кроме того, в рамках этой работы был сделан ещё один существенный вклад в развитие машинного обучения: создан датасет из 12,000 изображений с маркированной FBI. Датасет будет выложен в открытый доступ с целью помочь другим исследователям, работающим в области распознавания образов.

Перевод – Борис Румянцев, оригинал.