Американский стартап Petuum разрабатывает фреймворк для параллелизации операций машинного обучения. Программное обеспечение поможет разработчикам масштабировать и оптимизировать использование ML-моделей. Вычисление будет запускаться сразу на нескольких несвязанных процессорах, синхронизированных в облаке.
Petuum получил $108 млн на разработку решений от японского технологического конгломерата SoftBank. В следующем году стартап представит продукт — платформу, которая, по мнению основателя и генерального директора Petuum, Эрика Сина, сможет сделать машинное обучение доступным для компаний разных сфер деятельности.
Одними из первых клиентов станут компании из сферы здравоохранения. У больниц часто нет полноценной команды AI-разработчиков. Даже если такие команды будут созданы, разработка моделей машинного обучения будет затруднена без соответствующего ПО.
Особенности платформы
Команда использует два подхода в своем инструменте — параллельную обработку данных и «модельный параллелизм».
Ключевая идея разработки заключается в том, что машинное обучение не является детерминированным, оно вероятностно. Основываясь на этом, программное обеспечение Pentuum имеет преимущества перед другими видами ПО в контексте параллельной обработки данных:
- допустимая ошибка в отдельных частях программы может быть больше;
- зависимости между частями программ динамичны и могут изменяться в процессе выполнения вычислений.
Команда использует эти преимущества для ускорения обработки данных. Например, сервер параметров запускает протокол планирования, который выбирает, какие параметры нейронной сети должны выполняться параллельно, и какие слабо коррелируют друг с другом и могут выполняться независимо. Алгоритм распределения описан в работе IEEE TRANSACTIONS ON BIG DATA от 2015 года.
Таким образом, фреймворк Pentuum позволит развертывать большие модели даже при небольших вычислительных мощностях. В компании пока не определились, как монетизировать платформу. Возможно, они будут продавать лицензию, стоимость которой будет зависеть от количества компьютеров клиента, пользующихся продуктом. Запуск фреймворка запланирован на лето 2019.