JRDB — это набор данных с 64 минутами мультимодальных сенсорных данных. Датасет был собран с помощью робота JackRabbot. Данные содержат видео 360 градусов, 3D облака точек, аудиосигналы, сферическую панораму и закодированные движения колес робота. Вместе с датасетом и разметкой исследователи публикуют метрики для 2D и 3D распознавания и трекинга людей на видео.
Отличие JRDB в том, что в датасете представлены редкие сцены: виды внутри помещения и пешеходные зоны. Данные собирались как со стационарного робота, так и с передвигающегося. JRDB включает в себя разметку границ 2.3 миллионов объектов и 3D параллелепипедов (cuboids) для всех людей в кадрах. Объекты фиксировались 5 камерами.
Сбор данных
Исследователи собрали мультимодальные сенсорные данные с помощью робота JackRabbot. JackRabbot (JR) — это робот, который адаптирован для навигации и взаимодействиях в людных средах.
JR состоит из Segway с 4 колесами и Kinova Mico руки с конечным эффектором с двумя пальцами. Голова робота оснащена LCD дисплеем, который обрабатывает лицевые выражения людей, чтобы взаимодействовать с ними. Дисплей управляется дистанционно из-за двух моторов Maxon. JackRabbot состоит из множества визуальных, аудио сенсоров, сенсоров глубины и движения. В их число входят:
- 2 × Velodyne 16 Puck LITE крутящихся 3D лазерных сканера. Сканеры собирают данные об около 1.3 миллионов точек в секунду;
- 2 × SICK крутящихся 3D лазерных сканера;
- Occam цилиндрический стерео набор сенсоров, который состоит из 10 RGB камер;
- Микрофон;
- Фишай камера для съемки 360 градусов;
- ZED RGBD стерео камера;
- Кодировщики положения для каждого активного колеса робота
В JackRabbot также встроен вычислительный модуль, который состоит из двух GPU.
Разметка
На 2D изображениях и 3D облаках точек разметили всех пешеходов. Дополнительно всем людям на кадрах были присвоены уникальные идентификаторы, чтобы можно было отследить передвижение людей покадрово. Такая разметка позволяет обучать и оценивать модели, которые распознают и отслеживают людей.