Как различается качество облачных ML-сервисов у Amazon, Google и Microsoft

Исследователи протестировали работу облачных сервисов для компьютерного зрения от Amazon, Google и Microsoft. Эксперименты проходили 11 месяцев на 3-х разных задачах. Результаты показывали нестабильность результатов сервисов между собой и во времени.

Разные облачные AI-платформы предоставляют разный спектр услуг. Отсутствие документации с различиями вызывает проблемы у разработчиков, которые внедряют обработку данных в производство. Исследователи проверили, как различаются облачные инструменты для компьютерного зрения у самых крупных облачных правайдеров — AWS Rekognition, Google Cloud Vision и Azure Computer Vision. Задачей исследования было убедиться в стабильности работы выбранных сервисов. В случае если нет, как это описано в официальной документации.

Разработчики могут не осознавать, что сервисы отличаются от провайдера к провайдеру из-за сравнимости структуры облачных систем хранения. Сухое описание ML-сервисов не дает полную картину того, как системы работают изнутри.

Данные

Исследователи использовали три датасета для проверки сервисов. Два из них были собраны самостоятельно — первый, в котором было 30 изображений, и второй с 1,650 изображениями. В качестве третьего был выбран публичный набор данных COCOVal17 с 5 тысячами изображений.

Исследование длилось 11 месяцев и было разделено на две основных фазы:

13 недель с апреля по август 2018;
17 недель с ноября по март 2019

Методология

Сервисы тестировались по 6 характеристикам:

Последовательность наиболее вероятной предсказанной категории для изображения в каждом сервисе;
Семантическая последовательность предсказанных категорий для одного сервиса;
Степень уверенности сервиса в наиболее вероятной предсказанной категории;
Сравнимость доверительных интервалов у разных сервисов;
Последовательность наиболее вероятной предсказанной сервисом категории во времени — не меняется ли предсказание со временем;
Схожесть степени уверенности в предсказанной сервисом категории во времени

Что нашли

Результаты исследования вынесли в три тезиса:

Сервисы для компьютерного зрения выдают разные результаты на одинаковое входное изображение;
Предсказания сервисов во времени нестабильны и изменяются (для наиболее вероятной предсказанной категории);
Изменения в архитектуре сервисов при этом не документируются

Это важно, потому что коммерческие ML-системы могут быть не воспроизводимы и неустойчивы. Исследование показывает изменение предсказаний одного сервиса во времени. Помимо этого, внедрение разных сервисов в одну систему также может быть неустойчивым из-за различия в архитектурах сервисов (и, соответственно, в предсказаниях).

Компьютерное зрение Облачные сервисы

Данные

Методология

Что нашли

Читайте также