В статье приводится обзор сайтов, содержащих десятки тысяч датасетов в открытом доступе. Датасеты, представленные на данных ресурсах, покрывают такие области, как здравоохранение, география, социология, безопасность, транспорт и многие другие.
Google Cloud Public Datasets
Google Сloud содержит более сотни датасетов, размещенных в BigQuery и облачном хранилище. Датасеты взяты из различных источников, таких как GitHub, Бюро переписи населения США, NASA, BitCoin и многих других.
Amazon Web Services Open Data Registry
Amazon Web Services позволяет загрузить датасеты или исследовать их в Elastic Compute Cloud. Open Data Registry является частью программы AWS Public Dataset, направленной на демократизацию доступа к данным.
Data.gov
Data.gov является основным хранилищем открытых датасетов правительства США. Большинство датасетов находятся в открытом доступе, однако для остальных требуется получить разрешения для их загрузки. Представленные на сайте данные касаются климата, сельского хозяйства и энергетики.
Kaggle
На Kaggle представлено более 23 000 датасетов в широчайшем диапазоне тематик — от здравоохранения до мультфильмов. Датасеты Kaggle, используемые в соревнованиях, часто более детализированы, чем общедоступные датасеты.
UCI Machine Learning Repository
Старейший источник данных, работающий с 1987-го года. Датасеты UCI отлично подходят для машинного обучения благодаря возможности настройки параметров загрузки.
Global Health Observatory
Хранилище данных ВОЗ, содержащих информацию о различных инфекционных и неинфекционных заболеваниях, психическим расстройствам и лекарствам.
Earthdata
Датасеты NASA, содержащие информацию об атмосфере Земли, океанах, криосфере, солнечных вспышках. В Earthdata есть инструменты для обработки, категоризации, поиска и визуализации данных.
Больше датасетов доступно в категории Датасеты на сайте Neurohive.