FaceForensics — это датасет с фейковыми видео людей, который был дополнен Google. Датасет выложили, чтобы поддержать исследования в распознавании deepfake контента. Данные содержат 3 тысячи сгенерированных видеозаписей. Датасет собирался в сотрудничестве с Jigsaw, Technical University of Munich и the University Federico II of Naples’.
Глубокое обучение далеко продвинулось в области генерации изображений людей. Современные GAN нейросети синтезируют высококачественные изображения, которые сложно отличить от реальных. В случае с генерацией лиц существует множество способов манипуляции сгенерированными данными. Это несет опасность для публичных персон и нуждается в регулировании. Поэтому разработчики в Google дополнили ранее существующий датасет FaceForensics новыми видеозаписями в высоком разрешении.
Как собирались данные
Чтобы собрать датасет, использовались актеры, которые произносили речь в камеру, выполняли рутинные действия и жестикулировали. Сбор данных в целом занял год. Нейросеть сгенерировала фейковые видео, заменив в оригинальных видео лица на других актеров. Всего в оригинальных видеозаписях было 28 актеров. Датасет содержит и реальные, и сгенерированные видеозаписи. Сами данные доступны по ссылке.
Начальная версия датасета называлась FaceForensics++. FaceForensics++ содержал около 1 тысячи сгенерированных видео на основе публичных видео на YouTube.