TensorFlow — это одна из наиболее популярных открытых библиотек с датасетами для задач машинного обучения. Разработкой TensorFlow занимаются исследователи из Google Brain. Библиотека предоставляет доступ к датасетам с изображениями, видео, аудио и текстами.
Датасеты изображений
1. CelebA: один из наиболее крупных публичных датасетов с изображениями лиц. Celebrity Faces Attributes Dataset (CelebA) состоит из более чем 200 тысяч изображений знаменитостей.
2. Downsampled Imagenet: датасет собирали для оценки глубины изображений и задач генерации. Он содержит более 1.3 миллионов изображений объектов, сцен, транспортных средств, людей и т.п.
3. Lsun – это набор широкомасштабных изображений, который используется для задач оценки сцены (scene understanding). Датасет содержит более 9 миллионов изображений сцен, которые поделены на категории.
4. Bigearthnet содержит изображения с воздуха со спутника Sentinel-2.
5. Places 365 состоит из 1.8 миллионов изображений разных мест и сцен, включая офис, коттедж и пирс.
6. Quickdraw Bitmap – это набор изображений, нарисованных с помощью Quickdraw. Он состоит из 5 миллионов рисунков 345 категорий.
7. SVHN Cropped – это датасет от Stanford University для обучению моделей распознавания цифр.
8. VGGFace2 – один из наиболее крупных датасетов с изображениями. Он состоит из изображений, собранных с помощью Google поиска.
9. COCO собирали в коллаборации Google, FAIR, Caltech и других организаций. COCO создавали для задач распознавания объектов и сегментации объектов на изображении.
10. Open Images Challenge 2019 состоит из 9 миллионов изображений. Является одним из самых крупных размеченных датасетов для задач компьютерного зрения.
11. Open Images V4 – это одна из версий датасета Open Images. V4 содержит 14.6 миллиона границ объектов для объектов 600 классов.
12. AFLW2K3D содержит 2 тысячи изображений лица с разметкой ключевых точек.
Обработка видеозаписей
13. UCF101 предназначен для обучения моделей распознавания действий. Состоит из 13,320 видео, в которых запечатлены действия из 101 категорий.
14. BAIR Robot Pushing – это набор из 44 тысяч видео, где робот совершает толкающие действия
15. Moving MNIST – это вариация датасета MNIST benchmark. Состоит из 10 тысяч видео, движущихся цифр.
16. EMNIST – это расширенный MNIST.
Обработка аудиозаписей
17. CREMA-D – датасет для распознавания эмоций по записи голоса. Содержит 7 тысяч аудиоклипов.
18. Librispeech – это 1 тысяча часов английской речи, которую собрали из аудиокниг.
19. Libritts содержит 585 часов английской речи. Датасет создавали при помощи исследователей из Google Brain.
20. TED-LIUM – это датасет, который состоит из 110 часов английской речи из TED выступлений, который также имеют транскрипт.
21. VoxCeleb – набор аудио для задачи идентификации говорящего с аудиофайлами 1,251 спикеров.
Текстовые датасеты
22. C4 (Common Crawl’s Web Crawl Corpus) содержит отфильтрованные тексты вебстраниц из Common Crawl на более чем 40 языках.
23. Civil Comments – это архив 1.8 миллиона примеров публичных комментариев с англоязычных новостных сайтов.
24. IRC Disentanglement содержит более 77 тысяч комментариев из обсуждений Ubuntu IRC Channel.
25. Lm1b состоит из 1 миллиарда слов. Изначально корпус использовали для оценки статистических языковых моделей.
26. SNLI (Stanford Natural Language Inference Dataset) является корпусов 570 тысяч пар предложений, которые были написаны людьми.
27. e-SNLI – это расширение SNLI датасета, в который добали разметку пар предложений.
28. MultiNLI состоит из 433 тысяч пар предложений.
29. Wiki40b – это набор статей на Wikipedia на 40 языках. Данные отфильтровали и оставили только содержательный текст страниц.
30. Yelp Polarity Reviews содержит полярные отзывы на Yelp, более 580 тысяч отзывов.