Новые датасеты для распознавания объектов в 3D

Робототехника, дополненная реальность, беспилотное вождение — все эти области основаны на распознавании 3D-свойств объектов по 2D-изображениям. Как следствие, трехмерное распознавание объектов стало одной из центральных задач компьютерного зрения.

Заметный прогресс в этой области был достигнут после создания нескольких датасетов с 3D-метками к двумерным объектам (например, IKEA, Pascal3D+). Однако эти датасеты имеют небольшие размеры и включают лишь около десятка категорий объектов.

Это крайне мало по сравнению с ImageNet или Microsoft COCO — огромными датасетами, которые помогли добиться значительного прогресса в задаче классификации изображений в последние годы. Крупные датасеты с трехмерными метками способны улучшить распознавание 3D-объектов.

В этой статье мы расскажем об одном большом датасете, ObjectNet3D, и нескольких специализированных датасетах для распознавания 3D-объектов: MVTec ITODD и T-LESS — для решения индустриальных задач, и Falling Things — для задач распознавания объектов в робототехнике.

ObjectNet3D

Количество изображений: 90 127

Количество объектов: 201 888

Количество категорий: 100

Количество 3D-фигур: 44 147

Год выпуска: 2016

Пример изображения из датасета ObjectNet3D с 2D-объектов и 3D-метками

ObjectNet3D — это большая база данных, в которой объекты на изображениях помечены трехмерными фигурами. Метки обеспечивают точное соответствие трехмерных фигур и двумерных объектов. Размеры датасета позволяют добиться прогресса в распознавании трехмерных поз и объектов по 2D-изображениям.

Результаты извлечения 3D формы. Зеленым выделены выбранные формы. В нижнем ряду представлены два случая, в которых похожая форма не найдена среди 5 приведенных выше форм

Чтобы составить этот датасет, исследователи из Стэнфордского университета использовали изображения из существующих репозиториев и предложили метод выравнивания трехмерных фигур (доступных из существующих репозиториев 3D-фигур) для объектов на этих изображениях.

В наборе рассмотрены только определенные категории объектов, для которых можно собрать большое количество трехмерных изображений из Интернета. Вот полный список категорий:

Категории объектов в датасете ObjectNet3D

2D-изображения были найдены в датасете ImageNet и через Google Image Search для категорий, которые недостаточно охвачены ImageNet. 3D-формы были получены из репозиториев Trimble 3D Warehouse и ShapeNet. Затем для объектов на изображениях были сформированы 3D-фигуры с использованием модели, которая подробно описана в соответствующей статье. Наконец, также всем двумерным изображениям присваивались 3D-метки.

Датасет подходит для определения и обнаружения 2D-объектов, совместного определения 2D-объекта и 3D-оценки позы, а также для извлечения 3D-изображений из двумерных.

MVTec ITODD

Количество сцен: 800

Количество объектов: 28

Количество 3D-преобразований: 3 500

Год выпуска: 2017

MVTec ITODD — это датасет для обнаружения 3D-объектов и оценки позы с упором на применение в промышленных целях. Он содержит 28 объектов, расположенных в более чем 800 сценах и помеченных жестко связанным с объектом 3D-преобразованием. Сцены были захвачены одновременно двумя промышленными 3D-датчиками и тремя черно-белыми камерами, что позволяет проводить оценку методов, работающих с 3D-объектами, изображениями или их комбинациями. Создатели датасета (MVTec Software GmbH) решили использовать черно-белые камеры, потому что они часто используются в промышленности.

Как упоминается в описании датасета, объекты были выбраны так, чтобы охватывать диапазон различных факторов: отражательную способность поверхности, симметрию, конструкцию, плоскостность, детализацию, компактность и размер. Вот изображения всех объектов, включенных в MVTec ITODD, вместе с их названиями:

Изображения 28 использованных в датасете объектов

Для каждого объекта доступны сцены с одним и несколькими объектами (например, для имитации bin picking). Каждая сцена была получена один раз с каждым из трехмерных датчиков и дважды с каждой из черно-белых камер: с и без искусственного добавления шумов.

Наконец, для всех объектов доступны вручную созданные модели CAD для обучения методов обнаружения. Истинные объекты помечены с использованием полуавтоматического подхода, основанного на трехмерных данных 3D-датчика, снимающего в высоком качестве.

Датасет является эталонным для определения и оценки 3D-объектов в промышленных задачах.

Т-LESS

Количество изображений: 39 000 тренировочных + 10 000 тестовых (с каждого из трех датчиков)

Количество объектов: 30

Год выпуска: 2017

Примеры тестовых изображений из датасета T-LESS (слева) и их 3D-модели (справа). Экземпляры одного и того же объекта выделены одним цветом

T-LESS — это новый открытый датасет для оценки 6D-позы, то есть поворотов и вращений нетекстурированных жестких объектов. Датасет содержит 30 промышленных объектов с одинаковыми текстурой, цветом и отражающей способностью. Другим уникальным свойством набора является то, что некоторые объекты являются частями других.

Разработчики T-LESS использовали разные подходы к учебным и тестовым изображениям. Учебные изображения в этом датасете представлены отдельными объектами на черном фоне, а тестовые изображения — 20 сценами различной степени сложности. Вот примеры учебных и тестовых изображений:

Все обучающие и тренировочные изображения были сняты тремя синхронизованными датчиками. Для каждого объекта представлено два типа 3D-моделей: вручную созданная модель CAD и полуавтоматически реконструированная модель.

Датасет полезен для оценки 6D-позы объекта, обнаружения и сегментации 2D-объектов и реконструкции 3D-объектов. Наличие изображений с трех датчиков позволяет изучить влияние различных факторов на эффективность решения перечисленных задач.

Сверху: изображения для обучения и 3D-модели 30 объектов. Снизу: тестовые изображения 20 сцен с помеченными цветом истинными 3D-моделями

Falling Things

Количество изображений: 61 500

Количество объектов: 21 хозяйственный объект

Год выпуска: 2018

Falling Things (FAT) — это искусственный датасет для определения 3D-объектов и оценки позы, разработанный командой NVIDIA. Он был создан путем размещения 3D-моделей предметов домашнего хозяйства (например, бутылки с горчицей, супа, желатина и т. д.) в виртуальных средах.

Каждый снимок в датасете включает сегментацию классов по пикселям, 2D/3D границы всех объектов, моно и стерео RGB-изображения, карты глубины и 3D-позы. Большинство этих меток представлены на приведенном выше изображении.

Датасет FAT включает в себя множество объектов, фоновых изображений, сочетаний объектов и условий освещения. Ниже приведены примеры:

Для получения дополнительной информации о процессе создания набора данных FAT ознакомьтесь с нашей статьей, полностью посвященной этому датасету.

Датасет Falling Things предоставляет отличную возможность ускорить исследования в области обнаружения объектов и оценки позы, а также сегментации, оценки глубины и модальности датчиков.

Заключение

У задачи распознавания 3D объектов есть несколько важных приложений, но прогресс в этой области ограничен качеством доступных датасетов. К счастью, в последние годы появились новые датасеты для распознавания 3D-объектов. Хотя они имеют разный размер и характеристики, каждый из этих датасетов вносит существенный вклад в улучшение существующих систем распознавания 3D-объектов.

Распознавание объектов

ObjectNet3D

MVTec ITODD

Т-LESS

Falling Things

Заключение

Читайте также