DREAM — это нейросетевая модель для распознавания позы робота по одному снимку. Разработкой модели занимались исследователи из CMU и NVIDIA. Модель получает на вход RGB изображение. На выходе нейросеть выдает разметку позы робота. Модель обучалась исключительно на симулированных данных. Perspective-n-point (PnP) затем использовался для восстановления позиции камеры. DREAM не требует ручной настройки камеры.
Описание проблемы
Определение позы внешне установленной камеры — фундаментальная проблема для задачи управления роботом. Поза камеры необходима, чтобы трансформировать измерения из пространства камеры в пространство задачи робота. Эта трансформация обеспечивает устойчивое функционирование робота в неструктурированных динамических средах. Такой навык необходим роботу, чтобы уметь брать предметы, взаимодействовать с людьми и обходить препятствия.
Классический подход к настройке внешней камеры — вручную итеративно настраивать положение робота с помощью фиксации опорного маркера. Этот подход широко используется. Несмотря на это, у такого метода есть недостаток — необходимость вручную менять позицию конечного эффектора. Чтобы избавиться от этого недостатка, исследователи предлагают DREAM.
Что внутри модели
DREAM решает задачу оценки позы робота в два шага:
- Сначала нейросеть с архитектурой encoder-decoder принимает на вход RGB изображение робота и выдает n карт доверия (belief maps) для каждой ключевой точки позы;
- Perspective-n-Point (PnP) алгоритм использует выход модели на прошлом шаге и данные камеры, чтобы высчитать позу робота по отношению к камере
В картах доверия одной ключевой точки позы каждому пикселю присваивается вероятность, что ключевая точка изображена на пикселе. Кодировщик в нейросети — это сверточные слои предобученной VGG19.
Тестирование работы модели
Ниже видно, что DREAM выдает более устойчивые предсказания, чем конкурирующие подходы DART и ручная настройка (HEC).