Разработчики Nvidia создали алгоритм DeepIM, который превосходит в точности существующие методы оценки положения объекта в 6DoF, что важно для роботов и VR приложений. Роборука предварительно анализирует положение объекта в пространстве и предказывает, как изменится положение объекта при перемещении. Чем точнее оценка и предсказание позы, тем точнее он захватывает объект и тем аккуратнее его перемещает, не задевая другие объекты в пространстве.
DoF — степень свободы позы (degrees of freedom). Объект может перемещаться по трем осям и вращаться вокруг каждой, отсюда название 6DoF. Например, в шутерах применяется 4DoF степень свободы — субъект не может накрениться и вращается только вокруг вертикальной оси.
Обучение нейросети
Команда обучила нейросеть на 13 объектах из датасета LINEMOD, используя графические процессоры NVIDIA Tesla V100, с картой MXNet и ускоренной cuDNN. Алгоритм тренировали на 12000 сгенерированных изображений со случайными позами для каждого объекта. Помимо распознавания позы на цветном изображении, нейросеть обучается прогнозированию относительной трансформации SE, которая применяется к первоначальной оценке позы для уточнения итеративной позы.
«Работа открывает новые направления для будущих исследований. Например, мы ожидаем, что стерео версия DeepIM сможет еще больше улучшить точность оценки позы. Кроме того, DeepIM подтверждает, что можно уточнять оценку позы в 6D, используя только цветные изображения. Это позволит использовать камеры с высоким разрешением при высокой частоте кадров и с большим полем обзора, обеспечивая точную оценку позы роботами» — отмечают разработчики.
Команда представляет исследование на конференции ECCV в Мюнхене на этой неделе.