ClearGrasp: нейросеть обучили распознавать прозрачные объекты

ClearGrasp — это нейросетевой алгоритм для представления RGB-D изображений с прозрачными объектами в 3D. Совместно с моделью разработчики опубликовали датасет с синтетическими изображениями прозрачных объектов. С помощью ClearGrasp разработчики улучшили перформанс робота-руки на задаче переноса прозрачных объектов — с 12% до 74%.

Оптические 3D сенсоры, как RGB-D камеры и LIDAR, переносят изображения среды в 3D и широко применяются в робототехнике и автономных автомобилях. Несмотря на сложность сенсоров, прозрачные объекты, как стеклянные контейнеры, вносят в данные шум. Исследователи из Google AI, Synthesis AI и Columbia University разработали ClearGrasp, чтобы решить задачу корректного распознавания прозрачных объектов. Алгоритм работает с данными из RGB-D камер и использует нейросети для реконструкции глубины прозрачных объектов. Исследователи заявляют, что модель генерализуются на новые типы объектов, которых не было в тренировочных данных. Это является преимуществом над предыдущими аналоговыми моделями, которые предполагают наличие 3D моделей всех прозрачных объектов в выборке.

Публичный датасет с прозрачными объектами

Обучение нейросетей требует значительного количества данных. Ранее не было датасетов с 3D моделями прозрачных объектов. Существующие датасеты с 3D моделями, как Matterport3D или ScanNet, игнорируют прозрачные объекты. Это связано с тем, что процесс разметки таких объектов является затратным. Исследователи опубликовали датасет, который содержит 50,000 фотореалистичных рендеров с масками сегментации, границами и глубиной. Эти данные подходят для задач распознавания объектов в 2D и 3D. Каждое изображение содержит до 5 прозрачных объектов с различными настройками заднего фона и освещения.

Что внутри ClearGrasp

ClearGrasp использует 3 нейросети:

Сеть для оценки нормалей к поверхности;
Модель для распознавания границ пересечения объектов;
Сеть для маскирования прозрачных объектов

Маска используется, чтобы убрать все пиксели, которые соответствуют прозрачному объекту, а затем заполнить глубину. Глобальный модуль оптимизации расширяет глубину известной поверхности и постепенно реконструирует 3D модель изображения.