PyTorch-плагин Amazon для прямого доступа к датасетам S3

Amazon выпустила open-source плагин для PyTorch, предназначенный для получения доступа к датасетам, хранящимся в Amazon Simple Storage Service (S3). Плагин позволяет в потоковом режиме манипулировать датасетами любого размера, устраняя необходимость в использовании локального хранилища.

Благодаря данному плагину пользователи могут напрямую получить доступ к данным с помощью API PyTorch, таких как dataset и dataloader. Поскольку плагин реализован во внутренних интерфейсах PyTorch, его использование не требует изменений в уже существующем коде.

Плагин работает с файлами любого формата и представляет объекты S3 в виде blob-данных. Пользователи могут выполнять дополнительные преобразования данных, полученных из S3, и расширять его функционал для загрузки и обработки данных по мере необходимости. Помимо этого, плагин позволяет осуществлять случайное перемешивание данных для уменьшения дисперсии.

Плагин обладает высокой производительностью и значительно сокращает время внедрения данных из S3 в модели глубокого обучения.