fbpx
  • ClearGrasp: нейросеть обучили распознавать прозрачные объекты

    ClearGrasp — это нейросетевой алгоритм для представления RGB-D изображений с прозрачными объектами в 3D. Совместно с моделью разработчики опубликовали датасет с синтетическими изображениями прозрачных объектов. С помощью ClearGrasp разработчики улучшили перформанс робота-руки на задаче переноса прозрачных объектов — с 12% до 74%.

    Оптические 3D сенсоры, как RGB-D камеры и LIDAR, переносят изображения среды в 3D и широко применяются в робототехнике и автономных автомобилях. Несмотря на сложность сенсоров, прозрачные объекты, как стеклянные контейнеры, вносят в данные шум. Исследователи из Google AI, Synthesis AI и Columbia University разработали ClearGrasp, чтобы решить задачу корректного распознавания прозрачных объектов. Алгоритм работает с данными из RGB-D камер и использует нейросети для реконструкции глубины прозрачных объектов. Исследователи заявляют, что модель генерализуются на новые типы объектов, которых не было в тренировочных данных. Это является преимуществом над предыдущими аналоговыми моделями, которые предполагают наличие 3D моделей всех прозрачных объектов в выборке. 

    Публичный датасет с прозрачными объектами

    Обучение нейросетей требует значительного количества данных. Ранее не было датасетов с 3D моделями прозрачных объектов. Существующие датасеты с 3D моделями, как Matterport3D или ScanNet, игнорируют прозрачные объекты. Это связано с тем, что процесс разметки таких объектов является затратным. Исследователи опубликовали датасет, который содержит 50,000 фотореалистичных рендеров с масками сегментации, границами и глубиной. Эти данные подходят для задач распознавания объектов в 2D и 3D. Каждое изображение содержит до 5 прозрачных объектов с различными настройками заднего фона и освещения.

    Что внутри ClearGrasp

    ClearGrasp использует 3 нейросети:

    • Сеть для оценки нормалей к поверхности;
    • Модель для распознавания границ пересечения объектов;
    • Сеть для маскирования прозрачных объектов

    Маска используется, чтобы убрать все пиксели, которые соответствуют прозрачному объекту, а затем заполнить глубину. Глобальный модуль оптимизации расширяет глубину известной поверхности и постепенно реконструирует 3D модель изображения.

    Облако точек на основе предыдущих источников данных с прозрачными объектами. Данные шумные и некорректно размечены

     

    Пример того, как работает ClearGrasp