LiftPose3D: оценка 3D-позы по одному изображению

Группа ученых из Федеральной политехнической школы Лозанны представила LiftPose3D — нейронную сеть, восстанавливающую 3D-позу по изображению с одного ракурса. Модель была успешно протестирована на лабораторных животных и позволяет выполнить оценку 3D-позы без использования набора синхронизированных камер.

Безмаркерная трехмерная оценка позы является ключевым инструментом для кинематических исследований лабораторных животных. Большинство современных методов позволяет выполнить оценку 3D-позы с помощью многоракурсной триангуляции двумерных оценок позы на основе нейронных сетей. Однако для осуществления такой триангуляции требуются несколько камер и сложные протоколы калибровки, которые затрудняют широкое применение метода в лабораторных исследованиях.

Для обучения нейросети ученые использовали набор фотографий лабораторных животных (дроздофил) с различных ракурсов, полученных с помощью набора синхронизированных камер. Одновременное рассмотрение с различных ракурсов позволяет обучить нейросеть геометрическим соотношениям, присущим позам животных. После обучения LiftPose3D обучилась оценивать 3D-позу животного по одному изображению без дополнительной информации, например, об ориентации камеры.

Архитектура LiftPose3D состоих из двух линейных слоев размерности 1024, функции активации ReLU, дропаута и пропускаемых соединений. Модель содержит 4 млн обучаемых параметров, которые оптимизируются методом стохастического градиентного спуска с использованием оптимизатора Adam. Помимо этого, выполнялась пакетная нормализация.

(а) Схема сбора обучающего датасета; (b) архитектура алгоритма; (с) пример распознавания позы и сравнение с методом триангуляции.

Для доказательства универсальности LiftPose3D ученые испытали алгоритм на мухах, мышах, крысах и макаках, а также в условиях, когда 3D-триангуляция непрактична или невозможна. Сеть была внедрена в PyTorch на компьютере с CPU Intel Core i9-7900X (32 Гб оперативной памяти) и GPU GeForce RTX 2080 Ti Dual O11G. Время обучения для каждого отдельного животного составило менее 10 минут.