Исследователи протестировали работу облачных сервисов для компьютерного зрения от Amazon, Google и Microsoft. Эксперименты проходили 11 месяцев на 3-х разных задачах. Результаты показывали нестабильность результатов сервисов между собой и во времени.
Разные облачные AI-платформы предоставляют разный спектр услуг. Отсутствие документации с различиями вызывает проблемы у разработчиков, которые внедряют обработку данных в производство. Исследователи проверили, как различаются облачные инструменты для компьютерного зрения у самых крупных облачных правайдеров — AWS Rekognition, Google Cloud Vision и Azure Computer Vision. Задачей исследования было убедиться в стабильности работы выбранных сервисов. В случае если нет, как это описано в официальной документации.
Разработчики могут не осознавать, что сервисы отличаются от провайдера к провайдеру из-за сравнимости структуры облачных систем хранения. Сухое описание ML-сервисов не дает полную картину того, как системы работают изнутри.
Данные
Исследователи использовали три датасета для проверки сервисов. Два из них были собраны самостоятельно — первый, в котором было 30 изображений, и второй с 1,650 изображениями. В качестве третьего был выбран публичный набор данных COCOVal17 с 5 тысячами изображений.
Исследование длилось 11 месяцев и было разделено на две основных фазы:
- 13 недель с апреля по август 2018;
- 17 недель с ноября по март 2019
Методология
Сервисы тестировались по 6 характеристикам:
- Последовательность наиболее вероятной предсказанной категории для изображения в каждом сервисе;
- Семантическая последовательность предсказанных категорий для одного сервиса;
- Степень уверенности сервиса в наиболее вероятной предсказанной категории;
- Сравнимость доверительных интервалов у разных сервисов;
- Последовательность наиболее вероятной предсказанной сервисом категории во времени — не меняется ли предсказание со временем;
- Схожесть степени уверенности в предсказанной сервисом категории во времени
Что нашли
Результаты исследования вынесли в три тезиса:
- Сервисы для компьютерного зрения выдают разные результаты на одинаковое входное изображение;
- Предсказания сервисов во времени нестабильны и изменяются (для наиболее вероятной предсказанной категории);
- Изменения в архитектуре сервисов при этом не документируются
Это важно, потому что коммерческие ML-системы могут быть не воспроизводимы и неустойчивы. Исследование показывает изменение предсказаний одного сервиса во времени. Помимо этого, внедрение разных сервисов в одну систему также может быть неустойчивым из-за различия в архитектурах сервисов (и, соответственно, в предсказаниях).