fbpx
  • JRDB: датасет для обучения нейросетей визуальному восприятию

    JRDB — это набор данных с 64 минутами мультимодальных сенсорных данных. Датасет был собран с помощью робота JackRabbot. Данные содержат видео 360 градусов, 3D облака точек, аудиосигналы, сферическую панораму и закодированные движения колес робота. Вместе с датасетом и разметкой исследователи публикуют метрики для 2D и 3D распознавания и трекинга людей на видео. 

    Отличие JRDB в том, что в датасете представлены редкие сцены: виды внутри помещения и пешеходные зоны. Данные собирались как со стационарного робота, так и с передвигающегося. JRDB включает в себя разметку границ 2.3 миллионов объектов и 3D параллелепипедов (cuboids) для всех людей в кадрах. Объекты фиксировались 5 камерами. 

    Сбор данных 

    Исследователи собрали мультимодальные сенсорные данные с помощью робота JackRabbot. JackRabbot (JR) — это робот, который адаптирован для навигации и взаимодействиях в людных средах.

    JR состоит из Segway с 4 колесами и Kinova Mico руки с конечным эффектором с двумя пальцами. Голова робота оснащена LCD дисплеем, который обрабатывает лицевые выражения людей, чтобы взаимодействовать с ними. Дисплей управляется дистанционно из-за двух моторов Maxon. JackRabbot состоит из множества визуальных, аудио сенсоров, сенсоров глубины и движения. В их число входят:

    • 2 × Velodyne 16 Puck LITE крутящихся 3D лазерных сканера. Сканеры собирают данные об около 1.3 миллионов точек в секунду;
    • 2 × SICK крутящихся 3D лазерных сканера;
    • Occam цилиндрический стерео набор сенсоров, который состоит из 10 RGB камер;
    • Микрофон;
    • Фишай камера для съемки 360 градусов;
    • ZED RGBD стерео камера;
    • Кодировщики положения для каждого активного колеса робота

    В JackRabbot также встроен вычислительный модуль, который состоит из двух GPU.

    Робот для сбора данных

    Разметка

    На 2D изображениях и 3D облаках точек разметили всех пешеходов. Дополнительно всем людям на кадрах были присвоены уникальные идентификаторы, чтобы можно было отследить передвижение людей покадрово. Такая разметка позволяет обучать и оценивать модели, которые распознают и отслеживают людей.

    Описательные статистики данных в JRDB