fbpx
  • NYU Depth V2: сегментация объектов на видеозаписях интерьера

    NYU Depth V2 — это датасет для сегментации объектов на изображениях интерьера. Датасет состоит из видеопоследовательностей из разных сцен интерьера, которые были записаны в RGB и с помощью камер глубины от Microsoft Kinect. Это обновленная версия NYU Depth датасета.

    Подробнее про датасет

    Данные содержат:

    • 1449 размеченных пар изображен глубины и RGB изображений;
    • 464 новые сцены, снятые в трех разных городах;
    • 407,024 новых неразмеченных кадров

    Каждый объект размечен классом и количеством инстансов (например, cup1, cup2, cup3 и т.д.).

    Данные состоят из следующих компонентов:

    • Размеченный набор данных: сабсет видеозаписей с размеченными лейблами объектов. Эти данные предобрабатывали таким образом, что бы заполнить отсутствующие лейблы классов;
    • Сырой набор данных: сырые RGB изображения, изображения глубины и данные акселерометра, которые предоставляет Kinect
    • Инструментарий: полезные функции для обработки данных и лейблов классов

    Размеченные данные

    Размеченный датасет — это сабсет сырого датасета. Он состоит из пар RGB изображений и изображений глубины, которые синхронизировали и разметили лейблами. Пропуски в изображениях глубины заполняли с помощью схемы колоризации от Levin et al. 

    Выход RGB камеры (слева), предобработанная глубина (по центру) и размеченные лейблы классов объектов на изображении (справа)

    Сырые данные

    Сырой датасет содержит сырые изображения и данные акселерометра из Kinetic. RGB и камера глубины захватывали от 20 до 30 кадров в секунду. Несмотря на то, что кадры не синхронизированы напрямую, данные по таймстемпам хранятся в названии файлов. Их можно использовать для сборки всего видео с помощью функции get_synched_frames.m из Toolbox.

    Выход RGB камеры (слева) и камеры глубины (справа)