fbpx
  • “Видеть сквозь стены” — исследователи научились определять позу человека за стеной

    Human Pose Estimation Under Occlusions

    Возможность видеть сквозь стены всегда считалась сверхспособностью, и не раз становилась идеей научно-фантастических фильмов. В 2011 году исследователи из Массачусетского технологического института (MIT) объявили о разработке радара, показывающего в режиме реального времени изображение того, что происходит за сплошной стеной. Несмотря на неплохие результаты, метод представляет собой сложную радиолокационную технологию, предназначенную для особых частных случаев.

    Семь лет спустя исследователи из того же университета предложили новый метод “видения сквозь стены”

    Волны видимого света отражаются от объектов, а затем попадают на сетчатку глаз — так люди и животные «смотрят» на окружающий мир. Подобным образом мы можем «видеть» через стены, посылая радиоволны, которые отражаются от цели и возвращаются к приемникам. В новом подходе исследователи используют мощь частот радиосигналов Wi-Fi, которые пересекают преграды и отражаются от человеческого тела, а методы глубокого обучения позволили им точно предсказывать позу человека за стенами и при окклюзии (явлением, при котором объект визуально скрывается за препятствиями, полностью или частично, прим.).

    Входные данные

    Описанный метод называется RF-Pose (RF — сокращение “Radio Frequency” = “радиочастотный”), он использует маломощный беспроводной сигнал (в 1000 раз слабее Wi-Fi). Для точного предсказания позы за препятствиями используются отражения радиосигналов, обработанные глубокой нейросетью. Считается, что стены представляют собой твердые предметы из бетона или дерева, способные блокировать или хотя бы ослаблять сигналы. Однако есть волны с определенной частотой, способные проходить сквозь них, например, Wi-Fi. Чтобы понять, что находится за бетонной стеной, нужно записать отраженный сигнал, который прошел сквозь нее и оттолкнулся от объекта. В RF-Pose применяется широко известная радарная система с антенными решетками и с непрерывным частотно-модулированным излучением (Frequency Modulated Continuous Wavе, FMCW). По сути, FMCW разделяет отраженные волны на основе расстояния от отражающего объекта, а антенные решетки — на основе направления в пространстве.

    Таким образом, входные данные метода RF-Pose представляют собой две проекции отражений сигнала, созданные двумя антеннами — вертикальными и горизонтальными, и представленные как тепловые карты.

    Heat Maps, RF-Pose method
    Горизонтальные и вертикальные проекции тепловых карт

    Метод

    Для использования методов глубокого обучения крайне важно определить правильную схему ввода-вывода и надлежащую архитектуру с учетом всех ограничений и характера данных. Во многих ситуациях, когда пиксели не являются естественным представлением данных, хорошо себя показывают сверточные нейронные сетиВ нашем случае проблема аналогична — радиочастоты по своей природе сильно отличаются от визуальной картинки.

    Авторы объясняют и принимают во внимание ограничения радиочастотных сигналов. Во-первых, радиосигналы, особенно на проходящих сквозь стены частотах, имеют низкое пространственное разрешение (порядка десятков сантиметров), в отличие от визуальных сигналов с разрешением порядка долей миллиметра.

    Во-вторых, для того, чтобы люди действовали как отражатели, а не как рассеиватели, длина волны должна быть настроена соответственно человеческому телу. Наконец, от визуальных данных радиочастотные сигналы отличаются тем, что задаются как наборы комплексных чисел.

    Определив специфические для поставленной задачи требования, исследователи предложили метод, основанный на обучении с учителем, где обучающие данные представлены разными типами (cross-modal supervision). Представленная архитектура “учитель-ученик” использует синхронизированные пары изображений RGB и проекции тепловых карт отражений радиосигнала.

    Pose estimation under occlusions network architecture
    Архитектура сети “учитель-ученик”

    Cеть-учитель обучается на RGB-изображениях, ее цель — прогнозирование 14 ключевых точек, соответствующих анатомическим частям человеческого тела: голова, шея, плечи, локти, запястья, бедра, колени и лодыжки. Эти предсказанные карты достоверности (confidence maps) с ключевыми точками из сети-учителя используются для непосредственного обучения сети-ученика.

    Поэтому целью обучения является минимизация ошибки между предсказанием сети-ученика и предсказанием сети-учителя. Для этого функция потерь задается как бинарная кросс-энтропия для каждого пикселя на карте достоверности:

    Formula

    Поскольку радиоприемник, использовавшийся в этом подходе, генерировал 30 пар тепловых карт в секунду, у авторов была возможность тренировать сеть, объединяя информацию из нескольких последовательных снимков RF-карт. Это было сделано для того, чтобы при определении положения ключевых точек не опираться лишь на один кадр.

    Для того, чтобы справиться с представлением данных, авторы закладывают архитектуру энкодера/декодера в сеть-ученика, которая “заставляет” ее учиться преобразовывать радиочастотные тепловые карты в изображение с камеры. Для этого реализованы две сети энкодера для горизонтальных и вертикальных тепловых карт (их несколько из-за использования группы снимков сразу), и одна сеть декодера, которая предсказывает карты достоверности контрольных точек, получая на вход закодированные данные по каналам с двух энкодеров.

    В качестве входных данных сетям пространственно-временного сверточного кодирования поступает 100 кадров (3,3 секунды), каждая сеть имеет 10 слоев сверток с ядром 9x5x5. Сеть декодирования состоит из 4 слоев со свертками 3x6x6, и обе сети используют блоки ReLU и батч-нормализацию. Реализация была выполнена в PyTorch, при обучении batch size устанавливался равным 24.

    OpenPose and RF-Pose comparison
    Сравнение предложенного метода с другим существующим методом OpenPose

    Оценки и выводы

    Учитывая небольшой размер обучающей выборки, метод демонстрирует очень хорошие результаты. RF-Pose превосходит OpenPose на видимых сценах по метрике Average Precision(среднее из чисел, каждое из которых — средняя точность, при 10 различных порогах ОКS (object keypoint similarity) в диапазоне от 0,5 до 0,95). Сравнение между ними приведено в таблицах и графике ниже.

    Comparison between RF-Pose and OpenPose
    Сравнение RF-Pose и OpenPose

    Исследователи предложили новый метод, использующий глубокие нейронные сети и радиочастотные сигналы, чтобы преодолеть основную проблему задачи определения человеческой позы — окклюзию — и обеспечить точное предсказание движений человека. Описанный способ решает важный класс задач и может найти множество применений, особенно в области наблюдения, распознавания активности, подвижных играх и т. д.

    RF-Pose and OpenPose
    Сравнение RF-Pose и OpenPose с учетом RGB изображения с камеры

    Перевод — Эдуард Поконечный, оригинал — Dane Mitrev