fbpx
  • HybridPose: нейросеть распознает позу объекта в 6D

    HybridPose — это нейросетевая модель для распознавания позы объекта в 6D. Модель принимает на вход изображение объекта и предсказывает ключевые точки, векторы границ и отношение позы объекта относительно его стандартного положения. Использование промежуточных представлений позы объекта улучшает устойчивость предсказаний модели. Например, это актуально для случая с наложением объектов друг на друга. На датасете Occlusion Linemod нейросеть обошла предыдущий state-of-the-art на 67.4% в точности предсказанных поз.

    Стандартные подходы для 6D распознавания позы используют одно представление для кодирования данных позы объекта. HybridPose использует промежуточное представление, в котором хранится информация о геометрии объекта: ключевые точки, векторы границ (edge vectors) и смещение положения объекта от его стандартного положения (symmetry correspondence).

    Архитектура нейросети

    На вход HybridPose принимает изображение с объектом известного класса, которое было сделано с помощью стенопа с известными параметрами. На выходе модель отдает 6D расположение объекта относительно камеры. HybridPose использует три предсказательные сети чтобы определить:

    • Набор ключевых точек объекта (keypoints);
    • Набор связей между точками (edges between keypoints);
    • Симметрическое соответствие между пикселями изображения (symmetry correspondences)
    Пайплайн обучения модели

    Оценка работы модели

    Исследователи протестировали модель на датасете Linemod. В качестве метрики использовали ADD(-S) точность. ADD(-S) точность определяется как процент тестовых примеров, для которых средняя дистанция между предсказанием и истинным значением меньше 10%. HybridPose сравнили с базовыми подходами для оценки 6D позы объекта: PoseCNN, Oberweger et al., Hu et al., PVNet и DPOD. Ниже видно, что на сабсете Linemod HybridPose выдает более точные результаты. Occlusion Linemod —  это часть датасета, которая состоит из изображений, на которых объекты перекрывают друг друга.

    Точность моделей для разных типов объектов из датасета Occlusion Linemod