Objectron — это датасет для 3D распознавания объектов на видео. Датасет содержит 15 тысяч коротких видеоклипов, каждый из которых содержит аннотацию 3D границ объектов. Данные в датасете содержат как реальные клипы, так и синтетические, то есть сгенерированные на основе реальных.
В чем проблема
Датасет призван облегчить процесс обучения моделей для 3D объектов на 2D данных изображений и видеозаписей. Для этого исследователи собрали датасет, который содержит информацию о структуре 3D объектов и позволяет улучшать точность детекторов объектов.
Подробнее про датасет
Каждый видеоклип в Objectron содержит один основной объект, который чаще центрирован в кадре. Камера освещает объект с разных углов. Все границы объектов в данных размечали вручную для каждого кадра. Кроме разметки границ объектов, в датасете содержатся метаданные позиции камеры по времени и разреженные облака точек. Это позволяет повысить качество и устойчивость моделей, которые обучаются на датасете.
Кроме датасета, исследователи опубликовали модель 3D распознавания объектов, которая распознает объекты четырех категорий: обувь, стулья, кружки и камеры. Для оценки качестве предсказанных границ объектов исследователи предложили новую метрику, основанную на 3D IoU метрике.