FAIR разработали фреймворк WyPR для сегментации 3D-сцен без учителя

WyPR — фреймворк FAIR для сегментации 3D-сцен без учителя, обошедший современные методы на 6% по mIoU. Кроме модели, содержит настройку исходных данных и тестов.

Зачем это нужно

Понимание искусственными интеллектом 3D-сцены важно для диапазона задач. Например, когда робот помогает человеку доставить предметы из другой комнаты или стоит задача показать проекции коллег на совещании через устройство дополненной реальности. WyPR умеет понимать пространственные объекты без предварительной разметки точек 3D-сцены. Кроме того, он снижает требования к входным обучающим данным и расширяет диапазон распознаваемых объектов.

Главная задача работы — научиться выполнять пространственное распознавание объектов в трехмерном облаке точек, используя только теги на уровне сцены (например, список присутствующих объектов). Фреймворк разбивает эту задачу на две: сегментацию и обнаружение.

Как работает WyPR

WyPR сначала извлекает точечное представление сцены из исходных данных, используя стандартные методы трёхмерного глубокого обучения. Для решения задачи сегментации, каждой точке присваивается метка объекта. Поскольку для этой части обучения не предполагается наличие истинно-размеченных данных, WyPR использует следующие приёмы:

  • многовариантное обучение (multi-instance learning, MIL);
  • обучение без учителя (например, проверяется, что предсказания остаются реалистичными при расширении представления входных данных).

Затем, чтобы обнаружить границы объектов, используется новая техника, основанную на методе селективного поиска (selective search), под названием геометрический выборочный поиск (GSS). Каждый предложенный объект также классифицируется при помощи MIL и обучения без учителя, аналогично предыдущему шагу.

Наконец, WyPR обеспечивает согласованность прогнозов для точек и объектов. Проверяется, что метки точек в границе объекта соответствуют метке объекта.

Результаты

Как показывают результаты на датасете ScanNet, WyPR может приемлемо распознавать и сегментировать объекты сцены даже без точечной разметки. Фреймворк опередил современные методы со слабым обучением с учителем на 6% по показателю mIoU (среднее пересечение по объединению, коэффициент Жаккара). Кроме того, фреймворк WyPR формализует проблему 3D-обнаружения без учителя, включая в себя настройку исходных данных и тестов для упомянутого датасета. FAIR полагают, что это простимулирует дальнейшие исследования в этой области.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt