fbpx
  • Как различается качество облачных ML-сервисов у Amazon, Google и Microsoft

    Исследователи протестировали работу облачных сервисов для компьютерного зрения от Amazon, Google и Microsoft. Эксперименты проходили 11 месяцев на 3-х разных задачах. Результаты показывали нестабильность результатов сервисов между собой и во времени. 

    Разные облачные AI-платформы предоставляют разный спектр услуг. Отсутствие документации с различиями вызывает проблемы у разработчиков, которые внедряют обработку данных в производство. Исследователи проверили, как различаются облачные инструменты для компьютерного зрения у самых крупных облачных правайдеров — AWS Rekognition, Google Cloud Vision и Azure Computer Vision. Задачей исследования было убедиться в стабильности работы выбранных сервисов. В случае если нет, как это описано в официальной документации.

    Разработчики могут не осознавать, что сервисы отличаются от провайдера к провайдеру из-за сравнимости структуры облачных систем хранения. Сухое описание ML-сервисов не дает полную картину того, как системы работают изнутри.

    Данные

    Исследователи использовали три датасета для проверки сервисов. Два из них были собраны самостоятельно — первый, в котором было 30 изображений, и второй с 1,650 изображениями. В качестве третьего был выбран публичный набор данных COCOVal17  с 5 тысячами изображений. 

    Исследование длилось 11 месяцев и было разделено на две основных фазы:

    • 13 недель с апреля по август 2018;
    • 17 недель с ноября по март 2019

    Методология

    Сервисы тестировались по 6 характеристикам:

    1. Последовательность наиболее вероятной предсказанной категории для изображения в каждом сервисе;
    2. Семантическая последовательность предсказанных категорий для одного сервиса;
    3. Степень уверенности сервиса в наиболее вероятной предсказанной категории;
    4. Сравнимость доверительных интервалов у разных сервисов;
    5. Последовательность наиболее вероятной предсказанной сервисом категории во времени — не меняется ли предсказание со временем;
    6. Схожесть степени уверенности в предсказанной сервисом категории во времени 

    Что нашли 

    Результаты исследования вынесли в три тезиса:

    • Сервисы для компьютерного зрения выдают разные результаты на одинаковое входное изображение;
    • Предсказания сервисов во времени нестабильны и изменяются (для наиболее вероятной предсказанной категории);
    •  Изменения в архитектуре сервисов при этом не документируются

    Это важно, потому что коммерческие ML-системы могут быть не воспроизводимы и неустойчивы. Исследование показывает изменение предсказаний одного сервиса во времени. Помимо этого, внедрение разных сервисов в одну систему также может быть неустойчивым из-за различия в архитектурах сервисов (и, соответственно, в предсказаниях).