ClearGrasp: нейросеть обучили распознавать прозрачные объекты

ClearGrasp — это нейросетевой алгоритм для представления RGB-D изображений с прозрачными объектами в 3D. Совместно с моделью разработчики опубликовали датасет с синтетическими изображениями прозрачных объектов. С помощью ClearGrasp разработчики улучшили перформанс робота-руки на задаче переноса прозрачных объектов — с 12% до 74%.

Оптические 3D сенсоры, как RGB-D камеры и LIDAR, переносят изображения среды в 3D и широко применяются в робототехнике и автономных автомобилях. Несмотря на сложность сенсоров, прозрачные объекты, как стеклянные контейнеры, вносят в данные шум. Исследователи из Google AI, Synthesis AI и Columbia University разработали ClearGrasp, чтобы решить задачу корректного распознавания прозрачных объектов. Алгоритм работает с данными из RGB-D камер и использует нейросети для реконструкции глубины прозрачных объектов. Исследователи заявляют, что модель генерализуются на новые типы объектов, которых не было в тренировочных данных. Это является преимуществом над предыдущими аналоговыми моделями, которые предполагают наличие 3D моделей всех прозрачных объектов в выборке. 

Публичный датасет с прозрачными объектами

Обучение нейросетей требует значительного количества данных. Ранее не было датасетов с 3D моделями прозрачных объектов. Существующие датасеты с 3D моделями, как Matterport3D или ScanNet, игнорируют прозрачные объекты. Это связано с тем, что процесс разметки таких объектов является затратным. Исследователи опубликовали датасет, который содержит 50,000 фотореалистичных рендеров с масками сегментации, границами и глубиной. Эти данные подходят для задач распознавания объектов в 2D и 3D. Каждое изображение содержит до 5 прозрачных объектов с различными настройками заднего фона и освещения.

Что внутри ClearGrasp

ClearGrasp использует 3 нейросети:

  • Сеть для оценки нормалей к поверхности;
  • Модель для распознавания границ пересечения объектов;
  • Сеть для маскирования прозрачных объектов

Маска используется, чтобы убрать все пиксели, которые соответствуют прозрачному объекту, а затем заполнить глубину. Глобальный модуль оптимизации расширяет глубину известной поверхности и постепенно реконструирует 3D модель изображения.

Облако точек на основе предыдущих источников данных с прозрачными объектами. Данные шумные и некорректно размечены

 

Пример того, как работает ClearGrasp
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt