Adversarial Deepfakes: реалистичные дипфейки для оценки детекторов дипфейков

Adversarial Deepfakes — это набор состязательных примеров для классификаторов, которые распознают фейковые видео. Данные были сгенерированы на основе датасета FaceForensics++. Дипфейки — это сгенерированные видеозаписи говорящих людей. Такие фейковые видео могут использоваться в злонамеренных целях для дезинформации, оскорбления или нанесения вреда репутации. Последние методы распознавания дипфейков основываются на сверточных нейросетях. Исследователи показывают, что существующие детекторы можно обойти, если модифицировать фейковые видео.

Как это работает

Исследователи предлагают состязательные атаки, которые нацелены на то, чтобы обмануть детекторы дипфейков. CNN детекторы, которые тестировали, работают с видео на уровне кадров и классифицируют каждый кадр отдельно как Реальный или Фейковый. Процесс классификации происходит в два этапа:
Модель для отслеживания лиц извлекает границы лица на текущем кадре;
Обрезанное лицо подгоняется под стандартный размер и подается на вход CNN классификатору

В работе тестировали два дипфейк классификатора: XceptionNet и MesoNet. Чтобы обмануть модели, исследователи сгенерировали состязательные примеры для каждого кадра входной видеозаписи и объединили кадры в одно состязательное видео. Атаку проводили в двух форматах: white box и black box. Разный вид атаки предполагает, что у атакующих разные ресурсы и цели.

Обзор подхода

White Box атаки

В случае белой атаки предполагается, что у атакующего есть полный доступ к архитектуре модели и параметрам. Исследователи использовали итеративные gradient sign атаки, чтобы сгенерировать состязательные примеры. Видео генерировали с помощью Expectation Over Transforms подхода.

Black Box атаки

Черная атака подразумевает, что у атакующего есть представление о структуре детектора. При этом из модели он может получить исключительно вероятность класса для кадра входной видеозаписи. Исследователи используют Natural Evolution Strategy (NES), чтобы оценить выходные вероятности в соответствии с входными кадрами. Сгенерированные состязательные примеры устойчивы к сжатию.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt