• Новые датасеты для распознавания объектов в 3D

    Робототехника, дополненная реальность, беспилотное вождение — все эти области основаны на распознавании 3D-свойств объектов по 2D-изображениям. Как следствие, трехмерное распознавание объектов стало одной из центральных задач компьютерного зрения.

    Заметный прогресс в этой области был достигнут после создания нескольких датасетов с 3D-метками к двумерным объектам (например, IKEA, Pascal3D+). Однако эти датасеты имеют небольшие размеры и включают лишь около десятка категорий объектов.

    Это крайне мало по сравнению с ImageNet или Microsoft COCO — огромными датасетами, которые помогли добиться значительного прогресса в задаче классификации изображений в последние годы. Крупные датасеты с трехмерными метками способны улучшить распознавание 3D-объектов.

    В этой статье мы расскажем об одном большом датасете, ObjectNet3D, и нескольких специализированных датасетах для распознавания 3D-объектов: MVTec ITODD и T-LESS — для решения индустриальных задач, и Falling Things — для задач распознавания объектов в робототехнике.

    ObjectNet3D

    Количество изображений: 90 127

    Количество объектов: 201 888

    Количество категорий: 100

    Количество 3D-фигур: 44 147

    Год выпуска: 2016

    Пример изображения из датасета ObjectNet3D с 2D-объектов и 3D-метками

    ObjectNet3D — это большая база данных, в которой объекты на изображениях помечены трехмерными фигурами. Метки обеспечивают точное соответствие трехмерных фигур и двумерных объектов. Размеры датасета позволяют добиться прогресса в распознавании трехмерных поз и объектов по 2D-изображениям.

    Результаты извлечения 3D формы. Зеленым выделены выбранные формы. В нижнем ряду представлены два случая, в которых похожая форма не найдена среди 5 приведенных выше форм

    Чтобы составить этот датасет, исследователи из Стэнфордского университета использовали изображения из существующих репозиториев и предложили метод выравнивания трехмерных фигур (доступных из существующих репозиториев 3D-фигур) для объектов на этих изображениях.

    В наборе рассмотрены только определенные категории объектов, для которых можно собрать большое количество трехмерных изображений из Интернета. Вот полный список категорий:

    Категории объектов в датасете ObjectNet3D

    2D-изображения были найдены в датасете ImageNet и через Google Image Search для категорий, которые недостаточно охвачены ImageNet. 3D-формы были получены из репозиториев Trimble 3D Warehouse и ShapeNet. Затем для объектов на изображениях были сформированы 3D-фигуры с использованием модели, которая подробно описана в соответствующей статье. Наконец, также всем двумерным изображениям присваивались 3D-метки.

    Датасет подходит для определения и обнаружения 2D-объектов, совместного определения 2D-объекта и 3D-оценки позы, а также для извлечения 3D-изображений из двумерных.

    MVTec ITODD

    Количество сцен: 800

    Количество объектов: 28

    Количество 3D-преобразований: 3 500

    Год выпуска: 2017

    MVTec ITODD — это датасет для обнаружения 3D-объектов и оценки позы с упором на применение в промышленных целях. Он содержит 28 объектов, расположенных в более чем 800 сценах и помеченных жестко связанным с объектом 3D-преобразованием. Сцены были захвачены одновременно двумя промышленными 3D-датчиками и тремя черно-белыми камерами, что позволяет проводить оценку методов, работающих с 3D-объектами, изображениями или их комбинациями. Создатели датасета (MVTec Software GmbH) решили использовать черно-белые камеры, потому что они часто используются в промышленности.

    Как упоминается в описании датасета, объекты были выбраны так, чтобы охватывать диапазон различных факторов: отражательную способность поверхности, симметрию, конструкцию, плоскостность, детализацию, компактность и размер. Вот изображения всех объектов, включенных в MVTec ITODD, вместе с их названиями:

    Изображения 28 использованных в датасете объектов

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    Для каждого объекта доступны сцены с одним и несколькими объектами (например, для имитации bin picking). Каждая сцена была получена один раз с каждым из трехмерных датчиков и дважды с каждой из черно-белых камер: с и без искусственного добавления шумов.

    Наконец, для всех объектов доступны вручную созданные модели CAD для обучения методов обнаружения. Истинные объекты помечены с использованием полуавтоматического подхода, основанного на трехмерных данных 3D-датчика, снимающего в высоком качестве.

    Датасет является эталонным для определения и оценки 3D-объектов в промышленных задачах.

    Т-LESS

    Количество изображений: 39 000 тренировочных + 10 000 тестовых (с каждого из трех датчиков)

    Количество объектов: 30

    Год выпуска: 2017

    Примеры тестовых изображений из датасета T-LESS (слева) и их 3D-модели (справа). Экземпляры одного и того же объекта выделены одним цветом

    T-LESS — это новый открытый датасет для оценки 6D-позы, то есть поворотов и вращений нетекстурированных жестких объектов. Датасет содержит  30 промышленных объектов с одинаковыми текстурой, цветом и отражающей способностью. Другим уникальным свойством набора является то, что некоторые объекты являются частями других.

    Разработчики T-LESS использовали разные подходы к учебным и тестовым изображениям. Учебные изображения в этом датасете представлены отдельными объектами на черном фоне, а тестовые изображения — 20 сценами различной степени сложности. Вот примеры учебных и тестовых изображений:

    Все обучающие и тренировочные изображения были сняты тремя синхронизованными датчиками. Для каждого объекта представлено два типа 3D-моделей: вручную созданная модель CAD и полуавтоматически реконструированная модель.

    Датасет полезен для оценки 6D-позы объекта, обнаружения и сегментации 2D-объектов и реконструкции 3D-объектов. Наличие изображений с трех датчиков позволяет изучить влияние различных факторов на эффективность решения перечисленных задач.

    Сверху: изображения для обучения и 3D-модели 30 объектов. Снизу: тестовые изображения 20 сцен с помеченными цветом истинными 3D-моделями

    Falling Things

    Количество изображений: 61 500

    Количество объектов: 21 хозяйственный объект

    Год выпуска: 2018

    Пример изображения из датасета FAT

    Falling Things (FAT) — это искусственный датасет для определения 3D-объектов и оценки позы, разработанный командой NVIDIA. Он был создан путем размещения 3D-моделей предметов домашнего хозяйства (например, бутылки с горчицей, супа, желатина и т. д.) в виртуальных средах.

    Каждый снимок в датасете включает сегментацию классов по пикселям,  2D/3D границы всех объектов, моно и стерео RGB-изображения, карты глубины и 3D-позы. Большинство этих меток представлены на приведенном выше изображении.

    Датасет FAT включает в себя множество объектов, фоновых изображений, сочетаний объектов и условий освещения. Ниже приведены примеры:

    Примеры изображений из датасета FAT

    Для получения дополнительной информации о процессе создания набора данных FAT ознакомьтесь с нашей статьей, полностью посвященной этому датасету.

    Датасет Falling Things предоставляет отличную возможность ускорить исследования в области обнаружения объектов и оценки позы, а также сегментации, оценки глубины и модальности датчиков.

    Заключение

    У задачи распознавания 3D объектов есть несколько важных приложений, но прогресс в этой области ограничен качеством доступных датасетов. К счастью, в последние годы появились новые датасеты для распознавания 3D-объектов. Хотя они имеют разный размер и характеристики, каждый из этих датасетов вносит существенный вклад в улучшение существующих систем распознавания 3D-объектов.