fbpx
  • В TensorFlow появилась функция преобразования датасетов в формат tf.data

    Разработчики Google представили функцию TensorFlow Datasets для преобразования любых общедоступных наборов данных в формат tf.data. Открытые наборы данных для обучения моделей распространяются и хранятся в разных форматах. Написание скриптов для загрузки и обработки каждого набора данных требует времени.

    Tensorflow Datasets преобразует наборы данных из интернета в подготовленный формат, выполняя всю работу по извлечению исходных и предварительной обработке данных. Он представляет датасеты в формате tf.data.Datasets и массивов NumPy и использует tf.data API для создания высокопроизводительных пайплайнов, которые подготовлены к работе с TensorFlow 2.0 и могут работать с tf.keras моделями.

    Попробуйте сами (датасет MNIST):

    tfds.load и DatasetBuilder

    Для каждого набора данных TFDS реализует подкласс DatasetBuilder, который определяет откуда поступают данные (их URL), что представляет собой набор данных (его особенности), как данные должны быть разделены (например, на выборки TRAIN и TEST).

    Сейчас в TFDS доступны 29 датасетов, включая популярные MNIST, Street View House Numbers, 1 Billion Word Language Model, Large Movie Reviews Dataset. В дальнейшем будут добавлены новые.

    Можно самостоятельно добавить датасет здесь. Пока что TensorFlow ограничивает возможность добавления датасетов, обработка которых занимает больше одного дня. В ближайшее время это будет реализовано с помощью Apache Beam.