OpenAI предложили новый метод оценки устойчивости GAN к состязательным атакам

UAR — это метод для оценки устойчивости классификатора к ранее незнакомым состязательным атакам от OpenAI. Функция потерь Unforeseen Attack Robustness оценивает, как нейросеть справляется с искаженными изображениями. Таким образом можно улучшать стабильность предсказаний модели.

Состязательные атаки — это примеры неверно распознаваемых нейросетью изображений. Важно, что эти примеры — это оригинальное изображение, которое верно распознается нейросетью, с добавлением шума поверх. Наглядный пример — изображение кота нейросеть относит к классу кота с вероятностью выше 90%, а искаженное с помощью шума изображение кота нейросеть относит к неверному классу с высокой вероятностью.

Современный нейронный сети выдают точные результаты для многих задач. Несмотря на это, такие модели чаще неустойчивы к искаженным изображениям. Например, L_∞ искажение отличается от оригинального изображения максимально на 32 по яркости пикселя. Человек может соотнести оригинальное изображение и искаженное, но стандартная нейросеть их различает.

Все виды шума, который добавляли к изображениям в исследовании OpenAI

Ранее нейросети проверялись на устойчивость на основе одного вида ранее неизвестного модели искажения. Это дает неполное представление об ограничениях генерализующей способности модели.

Суть UAR

UAR — это метрика устойчивости модели к состязательным атакам, на которых она не обучалась. Метод состоит из трех шагов. Оцениваются ранее неизвестные атаки, результаты сравниваются с защитной системой, в которой хранится информация о типе искажения.

Шаги включают в себя:

Оценить модели на четырех разных типах искажений: L1, L2-JPEG, Elastic, Fog, — знания о том, как модель справляется с этими атаками, комплиментарны, потому что эти типы искажений друг от друга разительно отличаются;
Выбрать широкий спектр силы искажений, который подбирается состязательно обученной моделью;
Сравнить результаты, которые выдает модель, которая не обучалась на состязательных примерах, с той, что обучалась на состязательных примерах, — тут используется метрика UAR

Если метрика UAR близка к 100, это значит, что результаты модели на незнакомых состязательных атаках сравнимы с моделью, которая обучалась состязательно.

OpenAI Классификация изображений

Суть UAR

Читайте также