• PyTorch-плагин Amazon для прямого доступа к датасетам S3

    Amazon выпустила open-source плагин для PyTorch, предназначенный для получения доступа к датасетам, хранящимся в Amazon Simple Storage Service (S3). Плагин позволяет в потоковом режиме манипулировать датасетами любого размера, устраняя необходимость в использовании локального хранилища.



    Благодаря данному плагину пользователи могут напрямую получить доступ к данным с помощью API PyTorch, таких как dataset и dataloader. Поскольку плагин реализован во внутренних интерфейсах PyTorch, его использование не требует изменений в уже существующем коде.

    Плагин работает с файлами любого формата и представляет объекты S3 в виде blob-данных. Пользователи могут выполнять дополнительные преобразования данных, полученных из S3, и расширять его функционал для загрузки и обработки данных  по мере необходимости. Помимо этого, плагин позволяет осуществлять случайное перемешивание данных для уменьшения дисперсии.

    Плагин обладает высокой производительностью и значительно сокращает время внедрения данных из S3 в модели глубокого обучения.



    Подписаться
    Уведомить о
    guest

    0 Comments
    Межтекстовые Отзывы
    Посмотреть все комментарии