fbpx
  • FAIR разработали фреймворк WyPR для сегментации 3D-сцен без учителя

    WyPR — фреймворк FAIR для сегментации 3D-сцен без учителя, обошедший современные методы на 6% по mIoU. Кроме модели, содержит настройку исходных данных и тестов.

    Зачем это нужно

    Понимание искусственными интеллектом 3D-сцены важно для диапазона задач. Например, когда робот помогает человеку доставить предметы из другой комнаты или стоит задача показать проекции коллег на совещании через устройство дополненной реальности. WyPR умеет понимать пространственные объекты без предварительной разметки точек 3D-сцены. Кроме того, WyPR снижает требования к входным обучающим данным и расширяет диапазон распознаваемых объектов.

    Главная задача работы — научиться выполнять пространственное распознавание объектов в трехмерном облаке точек, используя только теги на уровне сцены (например, список присутствующих объектов). WyPR разбивает эту задачу на две: сегментацию и обнаружение.

    Как это работает

    WyPR сначала извлекает точечное представление сцены из исходных данных, используя стандартные методы трёхмерного глубокого обучения. Для решения задачи сегментации, каждой точке присваивается метка объекта. Поскольку для этой части обучения не предполагается наличие истинно-размеченных данных, WyPR использует следующие приёмы:

    • многовариантное обучение (multi-instance learning, MIL);
    • обучение без учителя (например, проверяется, что предсказания остаются реалистичными при расширении представления входных данных).

    Затем, чтобы обнаружить границы объектов, WyPR использует новую технику, основанную на методе селективного поиска (selective search), под названием геометрический выборочный поиск (GSS). Каждый предложенный объект также классифицируется при помощи MIL и обучения без учителя, аналогично предыдущему шагу.

    Наконец, WyPR обеспечивает согласованность прогнозов для точек и объектов. Проверяется, что метки точек в границе объекта соответствуют метке объекта.

    Результаты

    Как показывают результаты на датасете ScanNet, WyPR может приемлемо распознавать и сегментировать объекты сцены даже без точечной разметки. Фреймворк опередил современные методы со слабым обучением с учителем на 6% по показателю mIoU (среднее пересечение по объединению, коэффициент Жаккара). Кроме того, фреймворк WyPR формализует проблему 3D-обнаружения без учителя, включая в себя настройку исходных данных и тестов для упомянутого датасета. FAIR полагают, что это простимулирует дальнейшие исследования в этой области.

    Подробнее читайте в статье на arXiv, а также на странице проекта в Github.

    Подписаться
    Уведомить о
    guest
    0 Comments
    Межтекстовые Отзывы
    Посмотреть все комментарии