Современные GAN упростили процесс подделки изображений и поэтому, к сожалению, фальшивые изображения всё чаще и чаще используются в политических целях и для недобросовестного ведения дел. Ещё сильнее осложняет ситуацию то, что даже при тщательной проверке человеку очень трудно определить обработанное место на изображении. В Adobe задумались о том, как спасти СМИ от тотального недоверия. Выход из ситуации — использование нейронных сетей.
Предлагаемый метод
Прежде чем мы детально рассмотрим возможности нейронных сетей, определяющих отредактированные изображения, вспомним основные методы редактирования:
- Склеивание — копирование части одного изображения и вставка этой части на другое изображение;
- Копирование-сдвиг — копирование и вставка на одном изображении;
- Удаление — удаление части изображения и его перерисовка.
Группа ученых, возглавляемая Peng Zhou, исследовала возможность адаптации нейросетей, используемых для детекции образов, к задаче определения поддельных изображений. Предлагаемый подход позволяет выявить все три способа изменения изображений.
Исследователи решили применить двухпоточную нейросеть, которая обрабатывает одновременно RGB-изображение и его шумовые особенности. Они переделали Faster R-CNN в двухпоточную нейросеть с end-to-end обучением. Первый поток обрабатывает особенности с RGB каналов для определения визуальных несоответствий на границе отредактированных областей, а также для регистрации несовпадения контраста обработанных и оригинальных частей изображения. Второй поток анализирует локальные шумовые особенности. Два потока дополняют друг друга в поиске “фотошопа” на изображениях.
Смотреть: Сделайте Фото на документы из селфи прямо сейчас
Архитектура нейросети
Нейросеть состоит из трёх главных блоков:
1. RGB-поток — ответственен за семантическое определение отредактированных областей. Особенности исходного RGB изображения подаются на вход нейросети ResNet 101, затем они используются для определения метода редактирования с помощью техники bounding box regression. Нейросеть RPN в RGB потоке также использует эти особенности для определения возможного ROI (region of interest), который будет использован в рамках этой техники. Эксперименты показывают, что RGB особенности определяются нейросетью RPN лучше, чем шумовые особенности.
Одного RGB потока недостаточно для определения тех областей редактирования, где была применена пост-обработка для сглаживания границ вставленного элемента и выравнивания его контраста в соответствии с изображением. Поэтому был введён второй поток.
2. Шумовой поток — введён для определения шумовых, а не семантических особенностей входного изображения. Здесь исследователи используют достижения стегоанализа (steganalysis rich model (SRM)) и применяют SRM-фильтр для создания шумовых особенностей на изображении. Получаемые карты шумовых особенностей можно увидеть в третьей колонке на рисунке ниже.
Шум создаётся как разница между значением пикселя и оценкой его значения, полученной посредством интерполяции значений соседних пикселей. В шумовом потоке используется тот же объединяющий ROI слой (RoI pooling layer на схеме), что и в RGB потоке.
3. Слой билинейного объединения — производит соединение RGB и шумового потоков в двухпоточной СНС с сохранением пространственной информации для повышения достоверности обнаружения отредактированных областей. На выход этого слоя поступают ROI особенности обоих потоков. Затем производится нормировка по квадратичной норме и норме L2, и данные передаются в полностью соединённый слой. В технике bounding box regressionиспользуется гладкая функция потерь L1, а для классификации метода редактирования применена функция потерь перекрёстной энтропии.
Сравнение с существующими методами
Представленный в данной статье метод был приведён в количественное сравнение с другими современными методами на примере датасетов NIST16, Columbia, COVER и CASIA. Сравнение было выполнено с применением двух оценочных метрик: F1 score и Area Under the receiver operating characteristic Curve (AUC).
Предлагаемая модель (RGB-N) была приведена в сравнение как с другими методами (ELA, NOI1, CFA1, MFCN, и J-LSTM), так и с одним RGB потоком (RGB Net), с одним шумовым потоком (Noise Net) и с моделью, в которой реализовано прямое объединение всех зарегистрированных ROI из RGB Net и Noise Net (Late fusion). Результаты данного сравнения представлены в таблицах ниже.
Из таблиц видно, что модель RGB-N превосходит такие общепризнанные методы, как ELA, NOI1 и CFA1. Причиной этого может быть тот факт, что все эти методы сфокусированы на специфичных артефактах редактирования, которые содержат только часть информации о локализации обработанного региона. Метод MFCN был превзойдён предлагаемой моделью на датасетах NIST15 и Columbia, однако показал более высокий результат на датасете CASIA. Кроме того, можно заметить, что с датасетом Columbia шумовой поток работает лучше (на основании оценок в метрике F1), чем двухпоточная модель. Причина этого в том, что изображения этого датасета содержат только несжатые «склеенные» области, поэтому хорошо сохраняют разницу в шуме.
Ниже приведены результаты качественного сравнения нейросетей RGB Net, Noise Net, и RGB-N на примере двух типов обработки изображений. Как видно, двухпоточная нейросеть даёт корректный результат, даже если один из потоков ошибается (RGB-поток в первой строке, шумовой поток во второй).
Более того, рассматриваемая нейросеть позволяет определить метод, использованный при редактировании изображения. Используя информацию шумового и RGB потоков, она может различить склеивание, копирование и удаление, произведенные при обработке изображений. Несколько примеров этого приведены ниже.
Подведём итоги
Новый подход к определению подлинности изображения превосходит современные методы. Столь высокий результат достигается путём совмещения двух различных потоков (RGB и шумового) для выявления особенностей, возникающих при редактировании. Как видно, два потока дополняют друг друга при определении обработанных областей изображения. Шумовые особенности, выявленные SRM фильтром, позволяют нейросети перехватывать шумовые несоответствия между отредактированным и оригинальным регионами изображения.
Кроме того, RGB-N способна различать методы редактирования. Таким образом, она не только указывает, какая область изображения была обработана, но и говорит, как эта область была обработана: был ли объект вставлен, удалён или копирован. Поэтому, используя такую нейросеть, вы без труда сможете отличить оригинальное изображение от подделки.
Перевод — Борис Румянцев, оригинал — Kateryna Koidan.