Исследователи из NVIDIA предлагают нейросетевой подход для генерации видеозаписей с говорящими головами людей. Модель выучивается синтезировать видеозапись с говорящей головой на основе референсного изображения с целевой персоной и видео с целевыми движениями. Исследователи предлагают использовать модель для видеоконференций.
Подробнее про модель
Движение кодируется на основе представления ключевых точек лица. Информация о движении и о личности разделяется без использования размеченных данных. По результатам экспериментов, подход обходит state-of-the-art модели на бенчмарк-датасетах. Кроме того, компактное представление ключевых точек позволяет использовать модель в системе видеоконференций при том же визуальном качестве и с большей пропускной способностью. Представление ключевых точек позволяет пользователям вертеть головой во время генерации, что полезно для симуляции face-to-face опыта видеоконференции.