Нейронную сеть научили обнаруживать галактики

7 ноября 2018

Нейронную сеть научили обнаруживать галактики

Исследователи из Университета Западной Австралии создали сеть ClaRAN, которая определяет расположение галактик в глубоком космосе, анализируя излучение черных дыр, полученное с помощью радиотелескопов. Анализ излучения Черные дыры находятся в центре…

Исследователи из Университета Западной Австралии создали сеть ClaRAN, которая определяет расположение галактик в глубоком космосе, анализируя излучение черных дыр, полученное с помощью радиотелескопов.

Анализ излучения

Черные дыры находятся в центре большинства галактик и излучают мощные радиосигналы, которые распространяются далеко за пределы галактики. Исследователи обнаруживают это излучение с помощью радиотелескопов. Проблема состоит в том, что радиосигналы рассеиваются далеко от источника, поэтому местоположение галактики трудно распознать. Команда из ученых из Университета Западной Австралии обучила алгоритм ClaRAN обнаруживать излучение и распознавать его источник со средней точностью 83,6% и эмпирической точностью 90%.

ClaRAN анализирует более 500 различных представлений данных радиоизлучения, чтобы найти и классифицировать тип галактики. После сканирования представлений модель рассматривает данные инфракрасных телескопов для уточнения прогноза.

 

Особенности модели

В работе использована Faster R-CNN, разработанная исследователями Microsoft и Facebook. Команда университета изменила алгоритм, обучив его распознаванию радио- и инфракрасного излучения на изображениях. Для обучения использовался набор данных с 6141 изображениями и разными видами излучения.

Модель находит источники излучения в заданной области и классифицирует тип галактики. ClaRAN обучена различать 6 классов радиогалактик.

Кроме того, ClaRAN — первая модель для классификации источников радиоизлучения с открытым исходным кодом. В дальнейшем исследователи планируют улучшать точность алгоритма. Он обладает большим потенциалом в изучении данных, полученных с телескопов.

Тепловые карты компонент помогают восстановить лица на фотографиях с низким разрешением

8 октября 2018
face-resolution-upscaling-facial-component-heatmap

Тепловые карты компонент помогают восстановить лица на фотографиях с низким разрешением

Результаты многих техник анализа лица полагаются на соответствующее разрешение изображения. Например, распознавание лица не будет работать корректно, если разрешение лица на фотографии низкое. Что такое Super-Resolution Face super-resolution (FSR) или…

Результаты многих техник анализа лица полагаются на соответствующее разрешение изображения. Например, распознавание лица не будет работать корректно, если разрешение лица на фотографии низкое.

Что такое Super-Resolution

Face super-resolution (FSR) или лицевая галлюцинация (face hallucination) восстанавливает изображение лица в высоком разрешении (HR) из картинки низкого разрешения (LR). Эта область исследований привлекает к себе интерес в последние годы, однако даже современные методы часто выдают изображения с искаженной лицевой структурой и только частичным восстановлением деталей лица. Методы глубокого обучения для FSR не справляются с восстановление LR-лиц во некоторых позах, причем количество таких поз велико.

Как же решить данную проблему? Есть два варианта:

  • Изменение тренировочных данных с большим количеством поз. Но это все еще приводит к субоптимальным результатам: детали лица размыты или вовсе отсутствуют
  • Напрямую находить лицевые компоненты на LR изображениях. Это может привести к фантомным артефактам в финальном результате.

Но что насчет метода, который восстанавливает изображения учитывая предсказание лицевой структуры? Можем ли мы использовать тепловые карты для представления вероятности возникновения лицевого компонента?

Вскоре мы узнаем об этом, а пока обратимся к предыдущим подходам.

Связанные работы

Методы построения галлюцинации лица могут быть грубо разделены на три категории

  • Подходы основанные на “глобальных моделях”, главная цель которых восстановить низкокачественное изображение путем обучения целостного отображения, например PCA. В частности  Wang и Tang реконструируют HR изображения по коэффициентам PCA от LR — входа. Liu и др. разработали Марковское случайное поле (Markov Random Field (MRF) для уменьшения фантомных артефактов порожденных неправильной оценкой LR-изображения.
  • Kolouri и  Rohde используют оптимальные техники переноса, чтобы преобразовать HR-результат путем интерполяции образцовых HR лиц.
  • Предлагаются “частичные методы” для восстановления отдельных участков лица по отдельности. Например, Tappen и Liu восстанавливают детали лица, деформируя опорные изображения HR;
  • Yang и др. локализуют компоненты лица в изображениях LR с помощью детектора ключевых точек лица, а затем реконструируют отсутствующие HR детали из аналогичных компонентов HR.
  • Глубокое обучение: Xu и др. используют фреймворк GAN для восстановления размытого изображения лица;
  • Zhu и коллеги представили каскадную bi-сеть, названную CBN, которая сначала локализует LR лицевые компоненты, а затем увеличивает разрешения деталей лица.

State-of-the-art идея

Xin Yu и его коллеги предлагают многозадачную глубокую нейронную сеть, которая не только восстанавливает LR-изображения, но и оценивает пространственные положения лицевых компонентов. Их сверточная нейронная сеть (CNN) имеет две ветви: одну для восстановления изображений лица, а другую — для прогнозирования характерных областей лица по тепловыми картам.

Целиком процесс выглядеть следующим образом:

  1. Распознавание признаков (фич) по входящему LR изображению.
  2. Использование пространственного преобразования для выравнивнивания фич-карт.
  3. Оценка тепловых карт лицевых компонентов по улучшенным фич-картам.
  4. Конкатенация оценочных тепловых карт с фич-картами.

Метод позволяет улучшить крошечное выровненное изображение лица (16х16 пикселей) с множителем 8х с сохранением структуры лица.

улучшение качества фотографий с лицами
(a) изображение LR; (б) изображение HR; c) ближайшие соседи; (d) CBN, (e) TDAE, (f) TDAE обучается лучшему набору данных, (g) предлагаемый подход

Обзор модели

Нейросеть имеет следующую структуру:

  1. Многозадачная улучшающая нейросеть (MTUN):
    • Ветка улучшения ( состоит из автоэнкодера, разверточных слоев и сети пространственное трансформации)
    • Ветка оценки теплокарт лица (HEB)
  2. Дискриминационная сеть, которая состоит из сверточных слоев и полносвязных слоев.

архитектура модели

Оценка тепловых карт лица. Даже самые современные датчики лица не могут точно локализовать ключевые точки лица в изображениях с очень низким разрешением. Таким образом, исследователи предлагают предсказать тепловые карты лицевого компонента из улучшенных фич-карт.

2D-фотографии могут иметь широкий диапазон поз. Таким образом, чтобы уменьшить количество обучающих образов, необходимых для обучения HEB, они предлагают использовать сеть пространственных трансформаторов (STN) для выравнивания характеристик с улучшенной дискретизацией перед оценкой тепловых карт.

По оценкам, четыре карты представляют четыре компонента лица: глаза, нос, рот и подбородок (см. Изображение ниже).

Визуализация оценочных тепловых карт лицевого компонента: (a) невыровненное изображение LR; (б) изображение HR; c) карты теплоты; d) результат; (e) Предполагаемые тепловые карты, лежащие в основе результатов
Визуализация оценочных тепловых карт лицевого компонента: (a) невыровненное изображение LR; (б) изображение HR; c) карты теплоты; d) результат; (e) Предполагаемые тепловые карты, лежащие в основе результатов

Функция потерь. Результат использования различных комбинации функции потерь показаны ниже

a. невыровненное изображение LR, b. оригинальное изображение HR, c. только пиксельные потери, d. пиксельные и многофункциональные потери, e. пиксельные, функциональные и дискриминационные потери, f. пиксельные и лицевой структуры потери, g. пиксельные, функциональные и потери структуры h. пиксельные, функциональные, дискриминационные и структурные потери.
a. невыровненное изображение LR, b. оригинальное изображение HR, c. только пиксельные потери, d. пиксельные и многофункциональные потери, e. пиксельные, функциональные и дискриминационные потери, f. пиксельные и лицевой структуры потери, g. пиксельные, функциональные и потери структуры h. пиксельные, функциональные, дискриминационные и структурные потери.

При обучении своей многозадачной улучшающей сети исследователи выбрали последний вариант (h).

Качественные и количественные сравнения

Качественное сравнение предлагаемого подхода с использованием самых современных методов:

Сравнение с самыми современными методами: (a) LR image; (б) изображение HR; c) бикубическая интерполяция; d) VDSR; e) SRGAN; (f) метод Ma и др.; g) CBN; h) TDAE; (i) Предлагаемый подход
Сравнение с самыми современными методами: (a) LR image; (б) изображение HR; c) бикубическая интерполяция; d) VDSR; e) SRGAN; (f) метод Ma и др.; g) CBN; h) TDAE; (i) Предлагаемый подход

Как вы можете видеть, большинство существующих методов не позволяют создавать реалистичные детали лица, в то время как предлагаемый подход выводит реалистичные и подробные изображения, которые очень близки к оригинальному изображению HR.

Количественное сравнение с самыми современными методами приводит нас к тем же выводам. Все методы оценивались по всему тестовому набору данных по среднему значению PSNR и по шкале структурного сходства (SSIM).

Количественные сравнения по всему набору тестовых данных
Количественные сравнения по всему набору тестовых данных

Выводы

Подведем итог вкладу этой работы:

  • Он представляет собой новую многозадачную сеть с повышающей дискретизацией, которая может обрабатывать очень маленькие изображения лица LR (16 x 16 пикселей) с помощью коэффициента масштабирования 8x.
  • Метод не только использует сходство интенсивности изображения, но и оценивает структуру лица с помощью тепловых карт лицевых компонент.
  • Оцененные тепловые карты лицевых компонент обеспечивают не только пространственную информацию о компонентах лица, но также информацию о видимости.
  • Благодаря выравниванию карт функций перед оценкой тепловой карты количество изображений, необходимых для обучения модели, в значительной степени сокращается.

Этот метод хорош для восстановления лиц с очень низким разрешением в разных позах и генерирует реалистичные и подробные изображения без искажений и артефактов.

Нейросеть диагностирует болезнь Альцгеймера с точностью 94%

5 октября 2018

Нейросеть диагностирует болезнь Альцгеймера с точностью 94%

Согласно данным Alzheimer’s Association, только в США болезнью Альцгеймера страдают 5,7 миллиона человек. В эту цифру входит 5,5 миллионов больных старше 65 лет, и 200 000 человек моложе 65 с…

Согласно данным Alzheimer’s Association, только в США болезнью Альцгеймера страдают 5,7 миллиона человек. В эту цифру входит 5,5 миллионов больных старше 65 лет, и 200 000 человек моложе 65 с ранними симптомами болезни. Учёные из Стэнфорда разработали алгоритм, который поможет врачам в ранней диагностике патологических изменений мозга. Модель распознаёт болезнь Альцгеймера и её биомаркеры на МРТ снимках с точностью 94%.

Метод

Команда разработала трёхмерную свёрточную нейронную сеть (3D-CNN), используя TensorFlow с расширенной cuDNN. Алгоритм обучили на данных из датасета ADNI, используя только МРТ-снимки. «Одно из достижений нашей работы — минимальная предварительная обработка МРТ, которая включает только удаление небольшого количества артефактов и обрезку изображений», — заявили исследователи в статье.

Алгоритм - нейросеть определяет болезнь Альцгеймера по МРТ снимкам
Архитектура 3D-CNN

Результаты

Нейронная сеть распознаёт патологические изменения, указывающие на болезнь Альцгеймера с точностью 94%. Результат превосходит предыдущие state-of-the-art методы распознавания. Алгоритм ошибается реже, чем более сложные архитектуры, потому что меньше подвержен переобучению. Кроме того, модель выявляет биомаркеры болезни — команда обнаружила, что область гиппокампа в мозге имеет решающее значение при диагностике заболевания.

болезнь Альцгеймера по МРТ снимкам
Сравнение результатов с другими методами

Метод точной оценки позы в 6DoF от исследователей Nvidia

13 сентября 2018
DeepIM 6DoF

Метод точной оценки позы в 6DoF от исследователей Nvidia

Разработчики Nvidia создали алгоритм DeepIM, который превосходит в точности существующие методы оценки положения объекта в 6DoF, что важно для роботов и VR приложений. Роборука предварительно анализирует положение объекта в пространстве и предказывает,…

Разработчики Nvidia создали алгоритм DeepIM, который превосходит в точности существующие методы оценки положения объекта в 6DoF, что важно для роботов и VR приложений. Роборука предварительно анализирует положение объекта в пространстве и предказывает, как изменится положение объекта при перемещении. Чем точнее оценка и предсказание позы, тем точнее он захватывает объект и тем аккуратнее его перемещает, не задевая другие объекты в пространстве.

6DoF

DoF — степень свободы позы (degrees of freedom). Объект может перемещаться по трем осям и вращаться вокруг каждой, отсюда название 6DoF. Например, в шутерах применяется 4DoF степень свободы — субъект не может накрениться и вращается только вокруг вертикальной оси.

Обучение нейросети

Команда обучила нейросеть на 13 объектах из датасета LINEMOD, используя графические процессоры NVIDIA Tesla V100, с картой MXNet и ускоренной cuDNN. Алгоритм тренировали на 12000 сгенерированных изображений со случайными позами для каждого объекта. Помимо распознавания позы на цветном изображении, нейросеть обучается прогнозированию относительной трансформации SE, которая применяется к первоначальной оценке позы для уточнения итеративной позы.

6DoF pose estimation results comparison
Сравнение результатов с другими state-of-the-art методами

«Работа открывает новые направления для будущих исследований. Например, мы ожидаем, что стерео версия DeepIM сможет еще больше улучшить точность оценки позы. Кроме того, DeepIM подтверждает, что можно уточнять оценку позы в 6D, используя только цветные изображения. Это позволит использовать камеры с высоким разрешением при высокой частоте кадров и с большим полем обзора, обеспечивая точную оценку позы роботами» — отмечают разработчики.

Команда представляет исследование на конференции ECCV в Мюнхене на этой неделе.

Yamaha Motor обучают дронов операторскому искусству

10 сентября 2018

Yamaha Motor обучают дронов операторскому искусству

Исследователи из Yamaha Motor и Университета Карнеги-Меллон разработали систему глубокого обучения, которая автоматически генерирует плавные и безопасные траектории для беспилотников при аэросъемке. Это ещё один шаг к созданию автономного дрона,…

Исследователи из Yamaha Motor и Университета Карнеги-Меллон разработали систему глубокого обучения, которая автоматически генерирует плавные и безопасные траектории для беспилотников при аэросъемке. Это ещё один шаг к созданию автономного дрона, который сможет полностью самостоятельно снимать видео.

Команда обучила сверточную нейронную сеть на датасете COCO и собственном наборе данных с помощью графических процессоров NVIDIA GeForce GTX 1080 и PyTorch с ускоренной cuDNN. Всего использовались 70 000 изображений с размеченными данными. Теперь беспилотник предсказывает движения актеров и генерирует плавную траекторию, которая позволяет избегать столкновений.

Во время испытаний были собраны видеозаписи с полутора часами полёта, в течение которых беспилотник менял траекторию, избегал препятствий и/или окклюзии 65 раз. Максимальная скорость составляла 7,5 м/с. На видео команда демонстрирует работу дрона и нейронной сети в реальных условиях с разными движениями актеров и формами препятствий.

 

MnasNet: автоматизация поиска нейронной архитектуры на мобильных устройствах от Google

8 августа 2018
google2

MnasNet: автоматизация поиска нейронной архитектуры на мобильных устройствах от Google

Google разработали подход к выбору нейронной архитектуры, который позволяет достигать рекордной точности и скорости моделей на мобильных устройствах. Выбранные архитектуры работают в 1,5 раза быстрее, чем MobileNetV2, и в 2,4 раза…

Google разработали подход к выбору нейронной архитектуры, который позволяет достигать рекордной точности и скорости моделей на мобильных устройствах. Выбранные архитектуры работают в 1,5 раза быстрее, чем MobileNetV2, и в 2,4 раза быстрее, чем NASNet.

Разработка CNN для мобильных устройств — сложная задача, поскольку мобильные модели должны быть небольшими и быстрыми, но при этом точными. В блоге команда описывает автоматизированную систему MnasNet, которая анализирует нейронные архитектуры, используя обучение с подкреплением, учитывая ограничения в скорости на мобильных устройствах. Система исследует работу моделей на определённом смартфоне (в исследовании использован Google Pixel) и измеряет их реальную производительность, автоматически выбирая лучшую архитектуру.

В основе системы три компонента: контроллер RNN для обучения и моделирования архитектуры; тренер, для генерации и обучения моделей, и движок вывода, основанный на TensorFlow Lite, для измерения скорости работы модели на мобильном устройстве.

architecture MnasNet

Команда протестировала выбранные архитектуры на датасетах ImageNet и COCO. Модели работают в 1,5 раза быстрее, чем MobileNetV2, и в 2,4 раза быстрее, чем NASNet, который тоже использует автоматизированный поиск. На COCO нейросети достигли как «более высокой точности, так и более высокой скорости» в сравнении с MobileNet, и сопоставимой точности при  вычислительной мощности в 35 раз меньше по сравнению с моделью SSD300.

imagnet accuracy

Нейросеть распознаёт радиационные повреждения на снимках лучше человека

6 августа 2018
Распознавание повреждений

Нейросеть распознаёт радиационные повреждения на снимках лучше человека

Учёные из лаборатории Ок-Риджа и Висконсинского университета в Мадисоне создали алгоритм, который может распознавать и оценивать степень радиационных повреждений потенциальных материалов для ядерных реакторов лучше человека. Нейросеть распознала 86% дислокационных…

Учёные из лаборатории Ок-Риджа и Висконсинского университета в Мадисоне создали алгоритм, который может распознавать и оценивать степень радиационных повреждений потенциальных материалов для ядерных реакторов лучше человека. Нейросеть распознала 86% дислокационных петель при анализе снимков. Результат экспертной группы — 80%.

Материалы, которые подверглись радиационному воздействию, проверяются вручную. Этап проверки занимает много времени, но важен для разработки ядерных реакторов. Учёные использовали алгоритмы машинного обучения, чтобы ускорить и автоматизировать процесс визуальной проверки каждого электронно-микроскопического снимка. Пока что исследователи обучили нейросеть распознавать дислокационную петлю — один из основных видов радиационного повреждения.

Алгоритм состоит из трёх модулей: каскадного детектора объектов, модуля CNN-скрининга, и модуля распознавания. Нейросеть тренировали на 270 снимках, которые содержали 8424 петли, размеченные человеком. Контрольный датасет состоял из 28 изображений и 1142 петель. Авторы планируют совершенствовать разработку, увеличивая набор тренировочных данных и обучая нейросеть распознавать другие виды радиационных повреждений.

Определение позы человека на изображении с помощью FBI

16 июля 2018
3D pose estimation based on 2D joints and Forward-or-Backward Information (FBI) for each bone

Определение позы человека на изображении с помощью FBI

Беспилотное управление, виртуальная реальность, общение человека с компьютером, видеонаблюдение – области, в которых возможность определять позу человека на изображении играет ключевую роль. Значительные достижения в этой сфере были сделаны благодаря…

Беспилотное управление, виртуальная реальность, общение человека с компьютером, видеонаблюдение – области, в которых возможность определять позу человека на изображении играет ключевую роль. Значительные достижения в этой сфере были сделаны благодаря применению свёрточных нейронных сетей (Convolutional neural networks — CNN). Однако, задача остаётся нерешённой для непостановочных сцен: трудно определить точную позу человека по изображению, снятому в естественных условиях.

Предлагаемый метод

Группа исследователей из города Шэньчжэнь (Китай) предложили новый метод для определения позы человека на изображении. А именно, они предлагают использовать информацию об удалённости каждой части человеческого тела от камеры. Они назвали эту информацию Forward-or-Backward Information (FBI).

В рамках рассматриваемого метода используется свёрточная нейросеть с двумя ветвями: первая ответственна за маркирование суставов тела на изображении, а вторая – за работу с FBI. Стоит отметить, что существует несколько современных методов, использующих только информацию о положении суставов для определения позы человека. Однако, такой метод некорректен, так как различным позам может соответствовать одно и то же расположение суставов на изображении. В свою очередь, использование информации о расположении суставов в совокупности с данными о расстоянии  между камерой и различными частями тела позволяет определить положение суставов уже в трёхмерном пространстве. На основе этих рассуждений авторы полагают, что анализ двух рассмотренных типов информации в глубокой регресионной нейросети позволит предсказывать расположение суставов с более высокой точностью.

Distribution of out-of-plane angles for all bones marked as “uncertain”
Распределение количества отметок «положение не определено» по углам отклонения плоскости конечности от плоскости изображения

Датасет

Для стабилизации обучения нейросети исследователи разработали  специальный пользовательский интерфейс, с помощью которого маркировали FBI для 12,000 изображений. Задача была сведена к определению положения 14 частей тела в соответствии с тремя состояниями: близко, далеко, параллельно относительно плоскости изображения.

Для составления тренировочного датасета FBI были наняты люди, которые отмечали на произвольных изображениях из датасета MPII расположение частей тела по следующим критериям: «спереди», «позади» или «положение не определено» (подразумевается, что дать точный ответ затруднительно в виду параллельности части тела плоскости изображения). 20% всех отметок относились к критерию «положение не определено». График выше показывает распределение числа таких отметок по углам отклонения плоскости части тела относительно плоскости изображения. Как и можно было ожидать, люди чаще отмечают неопределённость, когда конечность почти параллельна к плоскости изображения.

Архитектура нейросети

Теперь давайте рассмотрим структуру используемой нейросети более детально.

Network architecture
Архитектура нейросети

Нейросеть имеет три составляющие:

  1. Pose Estimator — блок, ответственный за первичную оценку позы человека на изображении. Он принимает на вход изображение и выдаёт двумерную карту расположений 16 суставов человека на изображении.
  2. Определитель FBI. Эта часть принимает на вход изображение и выдаёт FBI 14-ти частей тела, разделённых по критериям «спереди», «позади» или «положение не определено». Эта часть нейросети начинается с последовательности свёрточных слоёв, за которыми следуют два последовательно расположенных модуля архитектуры hourglass. Полученные карты особенностей затем пропускаются через набор свёрточных слоёв, полностью соединённые слои и softmax-слой, благодаря чему на выходе мы получаем результат классификации по трём рассматриваемым критериям.
  3. Определитель позы (Pose Regressor – PR). В этой части регресионная нейросеть выявляет трёхмерные координаты суставов, принимая на вход их двумерные координаты и FBI. Чтобы учесть как можно больше информации, PR дополнительно принимает на вход матрицу вероятности, сгенерированную softmax-слоем. Таким образом, матрица двумерных координат и матрица вероятности соединяются, и с помощью полученной матрицы и двух каскадных блоков определяются трёхмерные координаты суставов, а следовательно, и расположения частей тела в трёхмерном пространстве.

Сравнение с существующими методами

Количественное сравнение было проведено на основе Human3.6M – датасета, содержащего 3.6 миллиона RGB изображений 7 профессиональных актёров, выполняющих 15 различных действий (прогулка, принятие пищи, сидение и т.д.). Средняя ошибка в определении позиции сустава (mean per joint position error – MPJPE) была использована как оценочная метрика. Результаты представлены в таблице 1.

Таблица 1. Качественное сравнение на основе MPJPE. Ordinal [19] – работа, схожая с предлагаемым методом. Наилучший результат без учёта этой работы помечен синим. Чёрным выделены наилучшие результаты с учётом это й работы.
Таблица 1. Качественное сравнение на основе MPJPE. Ordinal [19] – работа, схожая с предлагаемым методом. Наилучший результат без учёта этой работы помечен синим. Чёрным выделены наилучшие результаты с учётом это й работы
Для ряда работ результаты были выровнены в соответствии с реальными данными посредством rigid transformation – преобразования, сохраняющего расстояние между каждой парой точек. Результаты представлены в таблице ниже.

Таблица 2. Количественное сравнение, основанное на MPJPE после rigid transformation. Ordinal [19] – смежная с предлагаемым методом работа. Наилучший результат без учёта этой работы помечен синим. Чёрным выделены наилучшие результаты с учётом этой работы
Таблица 2. Количественное сравнение, основанное на MPJPE после rigid transformation. Ordinal [19] – смежная с предлагаемым методом работа. Наилучший результат без учёта этой работы помечен синим. Чёрным выделены наилучшие результаты с учётом этой работы.
Результаты количественного сравнения демонстрируют превосходство предлагаемого метода над более ранними подходами при определении практически всех поз. Необходимо отметить, что одна из работ, помеченная в таблицах как Ordinal [19], использует схожий подход и даёт сравнимые по качеству результаты. Отличие в том, что в этой работе при обучении выявляются глубокие взаимосвязи между всеми суставами на изображении. Такой способ обучения довольно утомителен, в отличие от способа, используемого в рассматриваемом методе.  

Для подтверждения эффективности предлагаемого метода при работе с непостановочными изображениями,  исследователи взяли 100 изображений из своего FBI-датасета и провели ещё одно сравнение с методом, предлагаемым Zhou и коллегами. В этом случае в качестве оценочной метрики был выбран коэффициент корректности FBI, полученной после распознавания позы. Метод Zhou и коллег показал коэффициент правильности 75%, в то время как рассматриваемый подход достиг результата в 78%. Кроме того, на рисунке ниже представлены результаты качественного сравнения этих методов.

Qualitative comparison results of the suggested method on some in-the-wild (ITW) images
Качественное сравнение результатов предлагаемого метода на примере изображений, снятых в произвольном ракурсе

В сухом остатке

Для более точного определения позы человека предлагаемый подход предполагает использование нового типа информации, названного Forward-or-Backward Information (FBI), благодаря чему он превосходит все ранее используемые техники. Кроме того, в рамках этой работы был сделан ещё один существенный вклад в развитие машинного обучения: создан датасет из 12,000 изображений с маркированной FBI. Датасет будет выложен в открытый доступ с целью помочь другим исследователям, работающим в области распознавания образов.

Перевод – Борис Румянцев, оригинал.

Нейросеть от Adobe мгновенно разоблачает фейковые фотографии

11 июля 2018
imge manipulation

Нейросеть от Adobe мгновенно разоблачает фейковые фотографии

Современные GAN упростили процесс подделки изображений и поэтому, к сожалению, фальшивые изображения всё чаще и чаще используются в политических целях и для недобросовестного ведения дел. Ещё сильнее осложняет ситуацию то, что даже…

Современные GAN упростили процесс подделки изображений и поэтому, к сожалению, фальшивые изображения всё чаще и чаще используются в политических целях и для недобросовестного ведения дел. Ещё сильнее осложняет ситуацию то, что даже при тщательной проверке человеку очень трудно определить обработанное место на изображении. В Adobe задумались о том, как спасти СМИ от тотального недоверия. Выход из ситуации — использование нейронных сетей.

Предлагаемый метод

Прежде чем мы детально рассмотрим возможности нейронных сетей, определяющих отредактированные изображения, вспомним основные методы редактирования:

  • Склеивание — копирование части одного изображения и вставка этой части на другое изображение;
  • Копирование-сдвиг — копирование и вставка на одном изображении;
  • Удаление — удаление части изображения и его перерисовка.

Группа ученых, возглавляемая Peng Zhou, исследовала возможность адаптации нейросетей, используемых для детекции образов, к задаче определения поддельных изображений. Предлагаемый подход позволяет выявить все три способа изменения изображений.

Исследователи решили применить двухпоточную нейросеть, которая обрабатывает одновременно RGB-изображение и его шумовые особенности. Они переделали Faster R-CNN в двухпоточную нейросеть с end-to-end обучением. Первый поток обрабатывает особенности с RGB каналов для определения визуальных несоответствий на границе отредактированных областей, а также для регистрации несовпадения контраста обработанных и оригинальных частей изображения. Второй поток анализирует локальные шумовые особенности. Два потока дополняют друг друга в поиске “фотошопа” на изображениях.

Архитектура нейросети

attention-guided-discriminator-adversarial-energy

Нейросеть состоит из трёх главных блоков:

1. RGB-поток — ответственен за семантическое определение отредактированных областей. Особенности исходного RGB изображения подаются на вход нейросети ResNet 101, затем они используются для определения метода редактирования с помощью техники bounding box regression. Нейросеть RPN в RGB потоке также использует эти особенности для определения возможного ROI (region of interest), который будет использован в рамках этой техники. Эксперименты показывают, что RGB особенности определяются нейросетью RPN лучше, чем шумовые особенности.

Одного RGB потока недостаточно для определения тех областей редактирования, где была применена пост-обработка для сглаживания границ вставленного элемента и выравнивания его контраста в соответствии с изображением. Поэтому был введён второй поток.

2. Шумовой поток — введён для определения шумовых, а не семантических особенностей входного изображения. Здесь исследователи используют достижения стегоанализа (steganalysis rich model (SRM)) и применяют SRM-фильтр для создания шумовых особенностей на изображении. Получаемые карты шумовых особенностей можно увидеть в третьей колонке на рисунке ниже.

fake images
Иллюстрация поддельных изображений

Шум создаётся как разница между значением пикселя и оценкой его значения, полученной посредством интерполяции значений соседних пикселей. В шумовом потоке используется тот же объединяющий ROI слой (RoI pooling layer на схеме), что и в RGB потоке.

3. Слой билинейного объединения — производит соединение RGB и шумового потоков в двухпоточной СНС с сохранением пространственной информации для повышения достоверности обнаружения отредактированных областей. На выход этого слоя поступают ROI особенности обоих потоков. Затем производится нормировка по квадратичной норме и норме L2, и данные передаются в полностью соединённый слой. В технике bounding box regressionиспользуется гладкая функция потерь L1, а для классификации метода редактирования применена функция потерь перекрёстной энтропии.

Сравнение с существующими методами

Представленный в данной статье метод был приведён в количественное сравнение с другими современными методами на примере датасетов NIST16, Columbia, COVER и CASIA. Сравнение было выполнено с применением двух оценочных метрик: F1 score и Area Under the receiver operating characteristic Curve (AUC).

Предлагаемая модель (RGB-N) была приведена в сравнение как с другими методами (ELA, NOI1, CFA1, MFCN, и J-LSTM), так и с одним RGB потоком (RGB Net), с одним шумовым потоком (Noise Net) и с моделью, в которой реализовано прямое объединение всех зарегистрированных ROI из RGB Net и Noise Net (Late fusion). Результаты данного сравнения представлены в таблицах ниже.

F1 score
Таблица 1. Сравнение по метрике F1 score
AUC
Таблица 2. Сравнение по метрике AUC

Из таблиц видно, что модель RGB-N превосходит такие общепризнанные методы, как ELA, NOI1 и CFA1. Причиной этого может быть тот факт, что все эти методы сфокусированы на специфичных артефактах редактирования, которые содержат только часть информации о локализации обработанного региона. Метод MFCN был превзойдён предлагаемой моделью на датасетах NIST15 и Columbia, однако показал более высокий результат на датасете CASIA. Кроме того, можно заметить, что с датасетом Columbia шумовой поток работает лучше (на основании оценок в метрике F1), чем двухпоточная модель. Причина этого в том, что изображения этого датасета содержат только несжатые «склеенные» области, поэтому хорошо сохраняют разницу в шуме.

Ниже приведены результаты качественного сравнения нейросетей RGB Net, Noise Net, и RGB-N на примере двух типов обработки изображений. Как видно, двухпоточная нейросеть даёт корректный результат, даже если один из потоков ошибается (RGB-поток в первой строке, шумовой поток во второй).

 results comparison
Качественное сравнение результатов

Более того, рассматриваемая нейросеть позволяет определить метод, использованный при редактировании изображения. Используя информацию шумового и RGB потоков, она может различить склеивание, копирование и удаление, произведенные при обработке изображений. Несколько примеров этого приведены ниже.

noise map
Качественные результаты определения методов редактирования

Подведём итоги

Новый подход к определению подлинности изображения превосходит современные методы. Столь высокий результат достигается путём совмещения двух различных потоков (RGB и шумового) для выявления особенностей, возникающих при редактировании. Как видно, два потока дополняют друг друга при определении обработанных областей изображения. Шумовые особенности, выявленные SRM фильтром, позволяют нейросети перехватывать шумовые несоответствия между отредактированным и оригинальным регионами изображения.

Кроме того, RGB-N способна различать методы редактирования. Таким образом, она не только указывает, какая область изображения была обработана, но и говорит, как эта область была обработана: был ли объект вставлен, удалён или копирован. Поэтому, используя такую нейросеть, вы без труда сможете отличить оригинальное изображение от подделки.

Перевод — Борис Румянцев, оригинал — Kateryna Koidan.