fbpx
  • 3DDFA: нейросеть размечает лицо человека в 3D по видеозаписи

    3DDFA — это нейросеть, которая размечает лицо человека в 3D по видеозаписи. Реализация модели написана на PyTorch и доступна в открытом репозитории на GitHub. Репозиторий содержит код проекта, предобученные MobileNet-V1 сети и предобработанный датасет для обучения и тестирования. На инференсе 3DDFA обрабатывает изображение за 0.27 миллисекунд на GeForce GTX TITAN X.

    Архитектура подхода

    3DDFA комбинирует в себе каскадную регрессию и сверточные сети. CNN применяется как регрессор в каскадной сверточной сети. Фреймворк состоит из четырех компонентов: функционал регрессии, признаки изображения, структуры сверточной сети и функция ошибки для обучения модели.

    Нейросеть работает в два потока: 

    • В первом потоке с промежуточным обучаемым параметром конструируется Projected Normalized Coordinate Code (PNCC), который вместе с входным изображением отправляется на вход CNN;
    • На втором потоке модель получает якоря признаков с консистентной семантикой и проводит Pose Adaptive Convolution (PAC) на них

    Выходы из двух потоков объединяются с помощью дополнительного полносвязного слоя, который предсказывает обновление промежуточного параметра.

    Визуализация структуры подхода

    Оценка работы подхода

    Исследователи сравнили предложенную 3DDFA с state-of-the-art методами для 3D разметки лица. Тестировали модели на датасетах AFLW и AFLW2000-3D. В качестве метрики использовали NME (%). Ниже видно, что предложенный подход выдает результаты выше или сравнимые с state-of-the-art.

    Сравнение конкурирующих подходов на двух версиях датасета AFLW