• Нейросеть от Adobe мгновенно разоблачает фейковые фотографии

    imge manipulation

    Современные GAN упростили процесс подделки изображений и поэтому, к сожалению, фальшивые изображения всё чаще и чаще используются в политических целях и для недобросовестного ведения дел. Ещё сильнее осложняет ситуацию то, что даже при тщательной проверке человеку очень трудно определить обработанное место на изображении. В Adobe задумались о том, как спасти СМИ от тотального недоверия. Выход из ситуации — использование нейронных сетей.

    Предлагаемый метод

    Прежде чем мы детально рассмотрим возможности нейронных сетей, определяющих отредактированные изображения, вспомним основные методы редактирования:

    • Склеивание — копирование части одного изображения и вставка этой части на другое изображение;
    • Копирование-сдвиг — копирование и вставка на одном изображении;
    • Удаление — удаление части изображения и его перерисовка.

    Группа ученых, возглавляемая Peng Zhou, исследовала возможность адаптации нейросетей, используемых для детекции образов, к задаче определения поддельных изображений. Предлагаемый подход позволяет выявить все три способа изменения изображений.

    Исследователи решили применить двухпоточную нейросеть, которая обрабатывает одновременно RGB-изображение и его шумовые особенности. Они переделали Faster R-CNN в двухпоточную нейросеть с end-to-end обучением. Первый поток обрабатывает особенности с RGB каналов для определения визуальных несоответствий на границе отредактированных областей, а также для регистрации несовпадения контраста обработанных и оригинальных частей изображения. Второй поток анализирует локальные шумовые особенности. Два потока дополняют друг друга в поиске “фотошопа” на изображениях.

    Архитектура нейросети

    attention-guided-discriminator-adversarial-energy

    Нейросеть состоит из трёх главных блоков:

    1. RGB-поток — ответственен за семантическое определение отредактированных областей. Особенности исходного RGB изображения подаются на вход нейросети ResNet 101, затем они используются для определения метода редактирования с помощью техники bounding box regression. Нейросеть RPN в RGB потоке также использует эти особенности для определения возможного ROI (region of interest), который будет использован в рамках этой техники. Эксперименты показывают, что RGB особенности определяются нейросетью RPN лучше, чем шумовые особенности.

    Одного RGB потока недостаточно для определения тех областей редактирования, где была применена пост-обработка для сглаживания границ вставленного элемента и выравнивания его контраста в соответствии с изображением. Поэтому был введён второй поток.

    2. Шумовой поток — введён для определения шумовых, а не семантических особенностей входного изображения. Здесь исследователи используют достижения стегоанализа (steganalysis rich model (SRM)) и применяют SRM-фильтр для создания шумовых особенностей на изображении. Получаемые карты шумовых особенностей можно увидеть в третьей колонке на рисунке ниже.

    fake images
    Иллюстрация поддельных изображений

    Шум создаётся как разница между значением пикселя и оценкой его значения, полученной посредством интерполяции значений соседних пикселей. В шумовом потоке используется тот же объединяющий ROI слой (RoI pooling layer на схеме), что и в RGB потоке.

    3. Слой билинейного объединения — производит соединение RGB и шумового потоков в двухпоточной СНС с сохранением пространственной информации для повышения достоверности обнаружения отредактированных областей. На выход этого слоя поступают ROI особенности обоих потоков. Затем производится нормировка по квадратичной норме и норме L2, и данные передаются в полностью соединённый слой. В технике bounding box regressionиспользуется гладкая функция потерь L1, а для классификации метода редактирования применена функция потерь перекрёстной энтропии.

    Сравнение с существующими методами

    Представленный в данной статье метод был приведён в количественное сравнение с другими современными методами на примере датасетов NIST16, Columbia, COVER и CASIA. Сравнение было выполнено с применением двух оценочных метрик: F1 score и Area Under the receiver operating characteristic Curve (AUC).

    Предлагаемая модель (RGB-N) была приведена в сравнение как с другими методами (ELA, NOI1, CFA1, MFCN, и J-LSTM), так и с одним RGB потоком (RGB Net), с одним шумовым потоком (Noise Net) и с моделью, в которой реализовано прямое объединение всех зарегистрированных ROI из RGB Net и Noise Net (Late fusion). Результаты данного сравнения представлены в таблицах ниже.

    F1 score
    Таблица 1. Сравнение по метрике F1 score
    AUC
    Таблица 2. Сравнение по метрике AUC

    Из таблиц видно, что модель RGB-N превосходит такие общепризнанные методы, как ELA, NOI1 и CFA1. Причиной этого может быть тот факт, что все эти методы сфокусированы на специфичных артефактах редактирования, которые содержат только часть информации о локализации обработанного региона. Метод MFCN был превзойдён предлагаемой моделью на датасетах NIST15 и Columbia, однако показал более высокий результат на датасете CASIA. Кроме того, можно заметить, что с датасетом Columbia шумовой поток работает лучше (на основании оценок в метрике F1), чем двухпоточная модель. Причина этого в том, что изображения этого датасета содержат только несжатые «склеенные» области, поэтому хорошо сохраняют разницу в шуме.

    Ниже приведены результаты качественного сравнения нейросетей RGB Net, Noise Net, и RGB-N на примере двух типов обработки изображений. Как видно, двухпоточная нейросеть даёт корректный результат, даже если один из потоков ошибается (RGB-поток в первой строке, шумовой поток во второй).

     results comparison
    Качественное сравнение результатов

    Более того, рассматриваемая нейросеть позволяет определить метод, использованный при редактировании изображения. Используя информацию шумового и RGB потоков, она может различить склеивание, копирование и удаление, произведенные при обработке изображений. Несколько примеров этого приведены ниже.

    noise map
    Качественные результаты определения методов редактирования

    Подведём итоги

    Новый подход к определению подлинности изображения превосходит современные методы. Столь высокий результат достигается путём совмещения двух различных потоков (RGB и шумового) для выявления особенностей, возникающих при редактировании. Как видно, два потока дополняют друг друга при определении обработанных областей изображения. Шумовые особенности, выявленные SRM фильтром, позволяют нейросети перехватывать шумовые несоответствия между отредактированным и оригинальным регионами изображения.

    Кроме того, RGB-N способна различать методы редактирования. Таким образом, она не только указывает, какая область изображения была обработана, но и говорит, как эта область была обработана: был ли объект вставлен, удалён или копирован. Поэтому, используя такую нейросеть, вы без труда сможете отличить оригинальное изображение от подделки.

    Перевод — Борис Румянцев, оригинал — Kateryna Koidan.