Использование подсказок LiDAR для распознавания объектов без учителя

Исследователи из опубликовали нейросетевой подход без учителя, который решает задачу распознавания объектов на изображении. Нейросеть использует данные LiDAR как вспомогательные во время обучения. Модель тестировали на датасете Waymo Open dataset. Она выдает сравнимые с state-of-the-art моделями с учителем результаты.

В чем проблема

Задача распознавания объектов на изображении без учителя (unsupervised) является открытой проблемой в компьютерном зрении. Основная сложность заключается в том, что границы объектов на 2D изображениях неоднозначны. Чтобы обойти эту сложность, исследователи предлагают использовать подсказки с данных LiDAR как дополнительный источник данных при предсказании. Использование данных о 3D структуре сцены позволяет разрешить проблему локализации объектов.

Другой сложностью является неравномерное распределение объектов на изображениях. С этим также помогают справиться данные LiDAR.

Подробнее про метод

Пайплайн работы модели состоит из следующих шагов:

  1. Сначала, на основе 3D облаков точек, генерируются кандидаты на сегментацию;
  2. Затем итеративно проходит процесс присвоения лейблов кандидатам и обучение сети разметки лейблов. Для этого используются данные 2D изображений и 3D облаков точек

Процесс присвоения лейблов устроен так, что бы учесть неравномерность распределения объектов на изображениях.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt