Новые датасеты для оценки позы в 3D

12 ноября 2018

Новые датасеты для оценки позы в 3D

Оценка позы в 3D — фундаментальная задача компьютерного зрения. Способность компьютера распознавать людей на изображениях и видео применяется в беспилотном вождении, распознавании действий, взаимодействии человека с компьютером, дополненной реальности и робототехнике. В…

Оценка позы в 3D — фундаментальная задача компьютерного зрения. Способность компьютера распознавать людей на изображениях и видео применяется в беспилотном вождении, распознавании действий, взаимодействии человека с компьютером, дополненной реальности и робототехнике.

В последние годы ученые добились прогресса в оценке позы в 2D. Важный фактор успеха — наличие больших размеченных датасетов поз человека, которые позволяют обучать сети распознавать позы в 2D. В то же время, успехи в оценке позы в 3D остаются ограниченными, поскольку сложно получить точную информацию о глубине, движении, сегментации частей тела и окклюзии.

В этой статье мы представляем три недавно созданных датасета, которые пытаются решить проблему нехватки аннотированных наборов данных для оценки позы в 3D.

DensePose

Количество изображений: 50 000

Количество меток: 5 000 000

Год выпуска: 2018

 

DensePose — это крупный датасет с метками соответствия изображение-поверхность, вручную помеченный на 50000 изображениях COCO. Датасет создан Facebook AI Research. Команда привлекла сотрудников, которые вручную задавали соответствие глубины на 2D изображениях и поверхностей, отвечающих телам людей, с помощью специально разработанного ПО для аннотирования.

Как показано ниже, на первом этапе сотрудники определяют области, соответствующие видимым, семантически определенным частям тела. На втором этапе каждая часть области разбивается на подобласти с помощью набора точек, и аннотаторы приводят эти точки в соответствие с поверхностью. Исследователи хотели избежать вращения поверхности вручную для этой цели и предоставили сотрудникам 6 изображений с разных точек зрения, чтобы позволить им ставить метки с любого ракурса.

Схема аннотирования

Ниже представлены визуализации аннотаций на изображениях из набора для проверки: изображения (слева), U (посередине) и V (справа) для собранных точек.

Визуализация аннотаций

DensePose — это первый собранный вручную истинный датасет для оценки позы по глубине.

SURREAL

Количество кадров: 6 500 000

Количество объектов: 145

Год выпуска: 2017

Создание реалистичных искусственных изображений

SURREAL (Synthetic hUmans foR REAL tasks) — это новый большой датасет с искусственными, но реалистичными изображениями людей, получаемыми из трехмерных последовательностей данных захвата человеческого движения. Он включает 6 миллионов кадров с аннотациями, такими как поза, карты глубины и маски сегментации.

Как описано в статье, изображения в SURREAL получаются из трехмерных последовательностей данных MoCap. Степень реалистичности искусственных изображений обычно ограничена. Чтобы обеспечить реалистичность человеческих тел в этом датасете, исследователи решили создать искусственные тела с использованием модели SMPL, параметры которой подбирались с помощью MoSh по необработанному массиву 3D-маркеров MoCap. Более того, авторы датасета SURREAL обеспечили большое разнообразие углов зрения, одежды и освещения.

Ниже приведена схема создания искусственной модели человеческого тела:

  • человек фотографируется для получения 3D модели тела;
  • происходит рендеринг кадра с использованием фонового изображения, карты текстуры тела, освещения и положения камеры;
  • все «ингредиенты» генерируются случайным образом для увеличения разнообразия данных;
  • сгенерированные RGB изображения сопровождаются 2D/3D позами, нормалями к поверхности, потоком света, картами глубины и картами сегментации частей тела.
Схема получения искусственных данных

Получившийся датасет содержит 145 объектов, >67.5 тыс видео и >6.5 млн кадров:

 

Несмотря на то, что SURREAL содержит искусственные изображения, исследователи, создавшие этот датасет, демонстрируют, что CNN-сети, прошедшие обучение в SURREAL, позволяют получать точную оценку карты глубины и сегментацию частей тела в реальных RGB изображениях. Как следствие, этот датасет предоставляет новые возможности для улучшения методов 3D-оценки позы с использованием большого количества искусственных данных.

UP-3D

Количество объектов: 5 569

Количество изображений: 5 569 изображений для обучения и 1208 тестовых изображений

Год выпуска: 2017

Снизу: сгенерированные модели 3D тела в различных датасетах, послужившие основой UP-3D. Сверху: улучшенные 3D-модели могут расширить исходный датасет

UP-3D — это датасет, который «объединяет людей» из различных датасетов для решения множества задач. В частности, используя недавно введенный метод SMPLify, исследователи получили высококачественную трехмерную модель тела человека. Аннотаторы вручную сортировали модели на хорошие и плохие.

Этот датасет объединяет два датасета LSP (11 000 изображений для обучения и 1000 тестовых изображений) и часть датасета MPII-HumanPose (13 030 изображений для обучения и 2622 тестовых изображения). Хотя можно было использовать метод автоматической сегментации для генерации силуэтов переднего плана, исследователи решили для надежности привлечь сотрудников для аннотирования. Ученые создали интерактивный инструмент аннотации поверх пакета Opensurfaces для работы с Amazon Mechanical Turk (AMT) и использовали интерактивных алгоритм Grabcut для получения изображений границ силуэтов.

Таким образом, задача аннотаторов состояла в том, чтобы определить силуэты на переднем плане и выполнить сегментацию 6 частей тела.

В то время как в среднем задача маркировки переднего плана занимает 108 сек в LSP и 168 сек в MPII, сегментация занимает вдвое больше времени: 236 с.

Аннотаторы сортировали модели на хорошие и плохие. Ниже приведен процент принятых моделей в каждом датасете:

 

Таким образом, принятые модели сформировали датасет UP-3D с 5569 изображениями для обучения и 1208 тестовыми изображениями. После экспериментов по семантической сегментации частей тела, оценке позы и 3D-подбору улучшенные 3D-модели расширили исходный набор данных.

Результаты работы различных методов, обученных на метках, созданных с помощью датасета UP-3D

Датасет устанавливает новую планку уровня детализации — 31 метка для семантической сегментации частей тела с высокой точностью и 91 метка для оценки человеческой позы. Кроме того, обучение с использованием 91 метки улучшает качество оценки трехмерной человеческой позы на двух популярных датасетах HumanEva и Human3.6M.

Заключение

Существуют разные подходы к построению набора данных для оценки трехмерной человеческой позы. Представленные в статье датасеты сосредоточены на различных аспектах распознавания людей на изображениях. Тем не менее, все они могут быть полезны для оценки позы человека в реальных приложениях.


Интересные статьи: 

Как стирается граница между цифровой камерой и лидаром

14 сентября 2018
lidar

Как стирается граница между цифровой камерой и лидаром

Когда Ouster начали разрабатывать свой лидар три года назад, было очевидно, что исследования в сфере глубокого обучения для камер превзошли исследования по лидарам. Данные лидара обладают невероятными преимуществами: богатая пространственная…

Когда Ouster начали разрабатывать свой лидар три года назад, было очевидно, что исследования в сфере глубокого обучения для камер превзошли исследования по лидарам. Данные лидара обладают невероятными преимуществами: богатая пространственная информация и высокая светочувствительность. Однако им не хватает исходного разрешения и эффективной структуры массива изображений, а трехмерные облака точек по-прежнему сложно использовать в нейросетях или обрабатывать с помощью аппаратного ускорения.

Ouster — старт-ап из Сан-Франциско, конструирующий 3D-сенсоры, которые сделают мир будущего намного безопаснее. По крайней мере, так утверждают сами разработчики.

Как работает лидар

Лидар — активный дальномер оптического диапазона, который формирует трёхмерную картину окружающего пространства. Работает по принципу эхолота. На открытых пространствах в качестве излучателя используется лазер, в закрытых помещениях достаточно обычного светодиода. Лидары разрабатываются с 1960-х годов.

Обычная цифровая видеокамера делает изображения с более высоким разрешением, но не дает точную информацию о расстоянии до объектов и плохо работает при слабом освещении.

lidar изображение
Данные с лидара — улица в Сан-Франциско

Разработчики Ouster решили взять только лучшее от камер и лидаров, объединив это в одном устройстве. Лидар Ouster OS-1 выдает изображения с фиксированной разрешающей способностью. Слои данных пространственно коррелированы, без временных несоответствий или шаттер эффектов, имеют 16 бит на пиксель и линейную фотоотраженность.

лидар и камера
Одновременные уровни изображения в реальном времени выводятся из OS-1. То, что вы видите сверху донизу, это данные окружающего мира, интенсивности, дальности и облака точек — ВСЕ от лидара. Обратите внимание, что окружающее изображение захватывает облачное небо и тени от деревьев и транспортных средств

Оптическая система OS-1 имеет большую диафрагму, чем большинство DSLR, а разработанный метод подсчета фотонов ASIC настроен на повышенную чувствительность, поэтому окружающие изображения получаются детальными даже в условиях низкой освещенности. OS-1 фиксирует как прямые сигналы, так и скрытые данные (ambient data) в ближнем инфракрасном диапазоне, поэтому данные напоминают видимые освещенные изображения тех же сцен. Поэтому есть вероятность, что алгоритмы, разработанные для камер, хорошо будут работать с данными из лидара.

Open source визуализатор

Также разработчики обновляют open-source драйвер для лидара OS-1, чтобы он выдавал слои данных в фиксированном разрешении с панорамным обзором в 360. Помимо этого создатели представляют новый, встроенный в VTK, кросс-платформенный инструмент для визуализации, для просмотра, записи и воспроизведения, как изображений, так и облаков точек. Выходные данные сенсора не требуют пост-процессинга, чтобы показывать заявленную функциональность, все происходит в аппаратной части, а драйвер просто собирает потоки пакетов данных в изображения.

 Our new open source visualizer. Full drive video: https://www.youtube.com/watch?v=LcnbOCBMiQM
Новый open-source визуализатор

Обучение нейросети на данных с лидара

Так как сенсор выдает фиксированное разрешение кадров, с глубиной, сигналами и эмбиент данными для каждого пикселя, это позволяет использовать данные в алгоритмах глубокого обучения, которые специально разрабатывались для камер. Создатели закодировали глубину, интенсивность и эмбиент информацию в вектор почти таким же образом, как это делается для синего, красного и зеленого каналов во входном слое. Нейросеть, которая была обучена на данных с камеры, обобщается на тип данных, которые предоставляет лидар.

Как один из примеров, исследователи натренировали попиксельный семантичесский классификатор, который определяет дорогу, транспорт, пешеходов и велосипедистов по набору кадров глубин и интенсивностей. Итоговая нейросеть была запущена на NVIDIA GTX 1060 в реальном времени и показала впечатляющие результаты, особенно, если учитывать, что это первая попытка.

Семантическая сегментация данных с лидара
Семантическая сегментация данных с лидара: https://www.youtube.com/watch?v=JxR9MasA9Yc

Так как все данные попиксельные, есть возможность производить дополнительную обработку данных и накладывать на трехмерные изображения двумерные маски такие как границы машин.

3d_label_2.gif

В другом случае создатели решили не объединять данные в вектор, а оставить их разделенными и прогнать их через ту же нейросеть по отдельности.

Как пример они использовали предобученную нейросеть SuperPoint project от DeTone и запустили напрямую на их изображениях глубины и интенсивности. Нейросеть обучена на большом количестве RGB изображений и никогда не видела данные с лидара, но результаты на интенсивности и глубине поражают.

 Full video: https://www.youtube.com/watch?v=igsJxrbaejw При внимательном обзоре, становится понятно, то нейросеть выделяет разные ключевые точки на каждом изображении. Тот, кто работал над лидарной и визуальной одометриями, поймет ценность избыточности, воплощенной в этом результате. Лидарная одометрия используется в геометрически однородных средах, например туннелях, тогда как визуальная одометрия применяется в открытых или плохо освещенных средах. Камера-лидар предоставляет мультимодальное решение для этой задачи.

Полученные результаты дают уверенность в том, что синергия данных с камеры и лидара нечто большее, чем просто сумма двух наборов данных.


Ссылки:

1. Видео


Интересные статьи:

Метод оценки глубины сцены и текстуры невидимых частей изображения

17 августа 2018
плохая оценка глубины изображения в AR

Метод оценки глубины сцены и текстуры невидимых частей изображения

Как предсказать то, что скрыто? Исследователи из Калифорнийского университета, Беркли и Google предложили любопытный подход к рендерингу трехмерного пространства (оценки глубины сцены) по одному 2D изображению, основанный на многоуровневом обучении. Цель…

Как предсказать то, что скрыто? Исследователи из Калифорнийского университета, Беркли и Google предложили любопытный подход к рендерингу трехмерного пространства (оценки глубины сцены) по одному 2D изображению, основанный на многоуровневом обучении. Цель — получить информацию о текстурах окклюдированных (невидимых) частях изображения и о расстоянии до них.

Чтобы решить главную проблему — недостаток тренировочных данных исследователи опирались на multi-view подход, который позволил изучить многоуровневое представление 3D сцены. Они использовали представление, известное как многослойное изображение глубины (англ. layered depth image — LDI), и предложенный метод позволяет построить такое представление трехмерного пространства из одного данного изображения

предсказание слоев не видимых с камеры
На основе 2D изображения сеть предсказала текстуры на заднем плане, которые не видны за деревом (a и b). Внизу — оценка глубины изображений (c и d)

Читайте также: Оценка глубины при помощи encoder-decoder сетей

Большинство соверменных методов предсказывают одно значение глубины на писксель (расстояние до пикселя) на видео и изображениях. В отличие от этих подходов, цель исследователей из университета Беркли — получить представление с информацией о нескольких слоях. Таким образом, один пиксель изображения содержит несколько значений глубины, что и позволяет сделать представление LDI.

Схематичное объяснение представления LDI. Каждый слой соответствует определенному расстоянию до видимой поверхности

Метод

3D-рендеринг изображения предскаывает ту часть пространства, которая не видна с имеющейся точки наблюдения (т. е. закрыта объектами), для этого определяют его окклюзивную часть. Карты глубины отвечает на вопрос: «насколько далеко от камеры находится точка на этом пикселе?». Представление LDI отвечает также на вопрос: «что скрывается за видимым содержимым пикселя?», что еще больше увеличивает ценность метода, позволяя выходить за пределы прогноза в 2.5D.

псевдотрехмерность 25D
Пример псевдотрехмерного (2.5D) пространства

Датасет

Представление LDI специфично и представляет собой трехмерную структуру в виде слоев глубины и цветных слоев. Cлои 3D-пространства определяются поверхностью, т. е. видимой частью с точки зрения камеры. Изображение LDI содержит L кортежей цветных (texture) и глубинных (depth) слоев (см. рисунок ниже).

Датасет для оценки глубины и пространства
6 случайно сгенерированных изображений для обучения

Для обучения сети исследователи использовали датасет, который состоит из N пар изображений, каждое из которых представлено исходным и целевым изображениями (Is, It), внутренними характеристиками камеры (Ks, Kt), а также хакарактеристиками камеры — углом поворота и вносимыми преобразования (R , t).

Синтез представлений как сигнал контроля

Имея исходное изображение Is, метод вычисляет представление LDI при помощи сверточной нейронной сети. Сигнал контроля поступает с целевого изображения (плоского изображения с другого ракурса). С учетом оценки LDI и точки обзора данные обощаются и приводятся к соответствию между целевым и визуализированным изображениями.

ПРедлагаемый метод

Рендеринг изображения выполняется с использованием геометрически определенной функции рендеринга и преобразованием камеры (метод предполагает, что оно заранее известно). Для рендеринга изображение LDI рассматривается как текстурированное облако точек. Затем каждая точка источника проецируется на целевой кадр. После этого окклюзия обрабатывается «мягким z-буфером» для отображения целевого образа на средневзвешенное значение цветов проецируемых точек.

Архитектура сети

Архитектура сети, используемая для оценки LDI, представляет собой сверточную сеть DispNet, которая по цветному изображению вычисляет пространственные функции при различных разрешениях и производит декодировку к исходному разрешению. Пропущенные соединения также добавляется в сеть. Чтобы использовать тот факт, что не все слои получают одинаковый обучающий сигнал, авторы добавляют отдельные блоки предсказания (последняя часть сети) для каждого слоя. Цель обучения —  получить схожесть исходного и целевого изображений с заданной точки наблюдения.

Предлагаемая сетевая архитектура (DispNet). Последняя часть определяется отдельно для каждого слоя

Оценки и выводы

Погрешность синтеза представлений на искусственных данных
Погрешность синтеза представлений на KITTI
Погрешность прогнозирования геометрии на искусственных данных

Для оценки разработанного метода исследователи использовали как искусственные данные, так и датасет с реального вождения автомобиля. Оценивая отдельные модули и решение в целом как количественно, так и качественно, ученые заключают, что данный способ успешно описывает окклюдированное пространство.

Погрешность LDI на KITTI

Хотя мы все еще далеки от полного восстановления трехмерного пространства, рассмотренный способ доказал, что методы глубокого обучения могут быть успешно применены для 3D-рендеринга (даже по одному изображению). Метод выходит за рамки 2.5D-рендеринга, расширяя наши представления об обработке изображений.

Код на Гитхаб — https://shubhtuls.github.io/lsi/

Оценка глубины на изображении при помощи Encoder-Decoder сетей

25 июня 2018
depth estimation using neural networks

Оценка глубины на изображении при помощи Encoder-Decoder сетей

От современных автономных мобильных роботов, например, беспилотных автомобилей, требуется глубокое понимание окружения. Полнота и точность модели окружающей среды играют ключевую роль для безопасности и эффективности работы. Камеры или датчики? В то…

От современных автономных мобильных роботов, например, беспилотных автомобилей, требуется глубокое понимание окружения. Полнота и точность модели окружающей среды играют ключевую роль для безопасности и эффективности работы.

(далее…)