Как различается качество облачных ML-сервисов у Amazon, Google и Microsoft

Исследователи протестировали работу облачных сервисов для компьютерного зрения от Amazon, Google и Microsoft. Эксперименты проходили 11 месяцев на 3-х разных задачах. Результаты показывали нестабильность результатов сервисов между собой и во времени. 

Разные облачные AI-платформы предоставляют разный спектр услуг. Отсутствие документации с различиями вызывает проблемы у разработчиков, которые внедряют обработку данных в производство. Исследователи проверили, как различаются облачные инструменты для компьютерного зрения у самых крупных облачных правайдеров — AWS Rekognition, Google Cloud Vision и Azure Computer Vision. Задачей исследования было убедиться в стабильности работы выбранных сервисов. В случае если нет, как это описано в официальной документации.

Разработчики могут не осознавать, что сервисы отличаются от провайдера к провайдеру из-за сравнимости структуры облачных систем хранения. Сухое описание ML-сервисов не дает полную картину того, как системы работают изнутри.

Данные

Исследователи использовали три датасета для проверки сервисов. Два из них были собраны самостоятельно — первый, в котором было 30 изображений, и второй с 1,650 изображениями. В качестве третьего был выбран публичный набор данных COCOVal17  с 5 тысячами изображений. 

Исследование длилось 11 месяцев и было разделено на две основных фазы:

  • 13 недель с апреля по август 2018;
  • 17 недель с ноября по март 2019

Методология

Сервисы тестировались по 6 характеристикам:

  1. Последовательность наиболее вероятной предсказанной категории для изображения в каждом сервисе;
  2. Семантическая последовательность предсказанных категорий для одного сервиса;
  3. Степень уверенности сервиса в наиболее вероятной предсказанной категории;
  4. Сравнимость доверительных интервалов у разных сервисов;
  5. Последовательность наиболее вероятной предсказанной сервисом категории во времени — не меняется ли предсказание со временем;
  6. Схожесть степени уверенности в предсказанной сервисом категории во времени 

Что нашли 

Результаты исследования вынесли в три тезиса:

  • Сервисы для компьютерного зрения выдают разные результаты на одинаковое входное изображение;
  • Предсказания сервисов во времени нестабильны и изменяются (для наиболее вероятной предсказанной категории);
  •  Изменения в архитектуре сервисов при этом не документируются

Это важно, потому что коммерческие ML-системы могут быть не воспроизводимы и неустойчивы. Исследование показывает изменение предсказаний одного сервиса во времени. Помимо этого, внедрение разных сервисов в одну систему также может быть неустойчивым из-за различия в архитектурах сервисов (и, соответственно, в предсказаниях).

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt