В интернете есть репозитории, которые обеспечивают доступ к миллионам наборов данных. Проблема в том, что трудно найти датасет, если нет прямой ссылки на него. Наборы данных плохо индексируется поисковиками, а если внутри нет описания и подписей к изображениям, датасет даже не будет проиндексирован роботами.
Чтобы оптимизировать поиск датасетов, Google запустил Dataset Search.
Dataset Search находит наборы данных независимо от того, где они размещаются: на сайте издателя, в цифровой библиотеке или на личной странице автора. Сейчас в Dataset Search можно найти ссылки на датасеты по экологическим, социальным и другим наукам, и данные, предоставленные правительственными организациями и новостными ресурсами.
Чтобы Google лучше понимал содержимое страниц, компания разработала рекомендации для издателей. Описание датасета должно включать имя создателя, дату публикации, информацию о том, как собирались данные и т.д. Подход основан на открытом стандарте для описания информации schema.org. Если издатели начнут следовать инструкциям, то найти датасет будет также просто, как погоду в своем городе.
На данный момент Dataset Search работает в бета-режиме.
Интересное по теме: