
Робототехника, дополненная реальность, беспилотное вождение — все эти области основаны на распознавании 3D-свойств объектов по 2D-изображениям. Как следствие, трехмерное распознавание объектов стало одной из центральных задач компьютерного зрения.
Заметный прогресс в этой области был достигнут после создания нескольких датасетов с 3D-метками к двумерным объектам (например, IKEA, Pascal3D+). Однако эти датасеты имеют небольшие размеры и включают лишь около десятка категорий объектов.
Это крайне мало по сравнению с ImageNet или Microsoft COCO — огромными датасетами, которые помогли добиться значительного прогресса в задаче классификации изображений в последние годы. Крупные датасеты с трехмерными метками способны улучшить распознавание 3D-объектов.
В этой статье мы расскажем об одном большом датасете, ObjectNet3D, и нескольких специализированных датасетах для распознавания 3D-объектов: MVTec ITODD и T-LESS — для решения индустриальных задач, и Falling Things — для задач распознавания объектов в робототехнике.
ObjectNet3D
Количество изображений: 90 127
Количество объектов: 201 888
Количество категорий: 100
Количество 3D-фигур: 44 147
Год выпуска: 2016

ObjectNet3D — это большая база данных, в которой объекты на изображениях помечены трехмерными фигурами. Метки обеспечивают точное соответствие трехмерных фигур и двумерных объектов. Размеры датасета позволяют добиться прогресса в распознавании трехмерных поз и объектов по 2D-изображениям.

Чтобы составить этот датасет, исследователи из Стэнфордского университета использовали изображения из существующих репозиториев и предложили метод выравнивания трехмерных фигур (доступных из существующих репозиториев 3D-фигур) для объектов на этих изображениях.
В наборе рассмотрены только определенные категории объектов, для которых можно собрать большое количество трехмерных изображений из Интернета. Вот полный список категорий:

2D-изображения были найдены в датасете ImageNet и через Google Image Search для категорий, которые недостаточно охвачены ImageNet. 3D-формы были получены из репозиториев Trimble 3D Warehouse и ShapeNet. Затем для объектов на изображениях были сформированы 3D-фигуры с использованием модели, которая подробно описана в соответствующей статье. Наконец, также всем двумерным изображениям присваивались 3D-метки.
Датасет подходит для определения и обнаружения 2D-объектов, совместного определения 2D-объекта и 3D-оценки позы, а также для извлечения 3D-изображений из двумерных.
MVTec ITODD
Количество сцен: 800
Количество объектов: 28
Количество 3D-преобразований: 3 500
Год выпуска: 2017
MVTec ITODD — это датасет для обнаружения 3D-объектов и оценки позы с упором на применение в промышленных целях. Он содержит 28 объектов, расположенных в более чем 800 сценах и помеченных жестко связанным с объектом 3D-преобразованием. Сцены были захвачены одновременно двумя промышленными 3D-датчиками и тремя черно-белыми камерами, что позволяет проводить оценку методов, работающих с 3D-объектами, изображениями или их комбинациями. Создатели датасета (MVTec Software GmbH) решили использовать черно-белые камеры, потому что они часто используются в промышленности.
Как упоминается в описании датасета, объекты были выбраны так, чтобы охватывать диапазон различных факторов: отражательную способность поверхности, симметрию, конструкцию, плоскостность, детализацию, компактность и размер. Вот изображения всех объектов, включенных в MVTec ITODD, вместе с их названиями:

Для каждого объекта доступны сцены с одним и несколькими объектами (например, для имитации bin picking). Каждая сцена была получена один раз с каждым из трехмерных датчиков и дважды с каждой из черно-белых камер: с и без искусственного добавления шумов.
Наконец, для всех объектов доступны вручную созданные модели CAD для обучения методов обнаружения. Истинные объекты помечены с использованием полуавтоматического подхода, основанного на трехмерных данных 3D-датчика, снимающего в высоком качестве.
Датасет является эталонным для определения и оценки 3D-объектов в промышленных задачах.
Т-LESS
Количество изображений: 39 000 тренировочных + 10 000 тестовых (с каждого из трех датчиков)
Количество объектов: 30
Год выпуска: 2017

T-LESS — это новый открытый датасет для оценки 6D-позы, то есть поворотов и вращений нетекстурированных жестких объектов. Датасет содержит 30 промышленных объектов с одинаковыми текстурой, цветом и отражающей способностью. Другим уникальным свойством набора является то, что некоторые объекты являются частями других.
Разработчики T-LESS использовали разные подходы к учебным и тестовым изображениям. Учебные изображения в этом датасете представлены отдельными объектами на черном фоне, а тестовые изображения — 20 сценами различной степени сложности. Вот примеры учебных и тестовых изображений:
Все обучающие и тренировочные изображения были сняты тремя синхронизованными датчиками. Для каждого объекта представлено два типа 3D-моделей: вручную созданная модель CAD и полуавтоматически реконструированная модель.
Датасет полезен для оценки 6D-позы объекта, обнаружения и сегментации 2D-объектов и реконструкции 3D-объектов. Наличие изображений с трех датчиков позволяет изучить влияние различных факторов на эффективность решения перечисленных задач.

Falling Things
Количество изображений: 61 500
Количество объектов: 21 хозяйственный объект
Год выпуска: 2018

Falling Things (FAT) — это искусственный датасет для определения 3D-объектов и оценки позы, разработанный командой NVIDIA. Он был создан путем размещения 3D-моделей предметов домашнего хозяйства (например, бутылки с горчицей, супа, желатина и т. д.) в виртуальных средах.
Каждый снимок в датасете включает сегментацию классов по пикселям, 2D/3D границы всех объектов, моно и стерео RGB-изображения, карты глубины и 3D-позы. Большинство этих меток представлены на приведенном выше изображении.
Датасет FAT включает в себя множество объектов, фоновых изображений, сочетаний объектов и условий освещения. Ниже приведены примеры:

Для получения дополнительной информации о процессе создания набора данных FAT ознакомьтесь с нашей статьей, полностью посвященной этому датасету.
Датасет Falling Things предоставляет отличную возможность ускорить исследования в области обнаружения объектов и оценки позы, а также сегментации, оценки глубины и модальности датчиков.
Заключение
У задачи распознавания 3D объектов есть несколько важных приложений, но прогресс в этой области ограничен качеством доступных датасетов. К счастью, в последние годы появились новые датасеты для распознавания 3D-объектов. Хотя они имеют разный размер и характеристики, каждый из этих датасетов вносит существенный вклад в улучшение существующих систем распознавания 3D-объектов.