30 самых крупных датасетов для машинного обучения в TensorFlow

TensorFlow — это одна из наиболее популярных открытых библиотек с датасетами для задач машинного обучения. Разработкой TensorFlow занимаются исследователи из Google Brain. Библиотека предоставляет доступ к датасетам с изображениями, видео, аудио и текстами.

Датасеты изображений

1. CelebA: один из наиболее крупных публичных датасетов с изображениями лиц. Celebrity Faces Attributes Dataset (CelebA) состоит из более чем 200 тысяч изображений знаменитостей.

2. Downsampled Imagenet: датасет собирали для оценки глубины изображений и задач генерации. Он содержит более 1.3 миллионов изображений объектов, сцен, транспортных средств, людей и т.п.

3. Lsun – это набор широкомасштабных изображений, который используется для задач оценки сцены (scene understanding). Датасет содержит более 9 миллионов изображений сцен, которые поделены на категории.

4. Bigearthnet содержит изображения с воздуха со спутника Sentinel-2.

5. Places 365 состоит из 1.8 миллионов изображений разных мест и сцен, включая офис, коттедж и пирс.

6. Quickdraw Bitmap – это набор изображений, нарисованных с помощью Quickdraw. Он состоит из 5 миллионов рисунков 345 категорий.

7. SVHN Cropped – это датасет от Stanford University для обучению моделей распознавания цифр.

8. VGGFace2 – один из наиболее крупных датасетов с изображениями. Он состоит из изображений, собранных с помощью Google поиска.

9. COCO собирали в коллаборации Google, FAIR, Caltech и других организаций. COCO создавали для задач распознавания объектов и сегментации объектов на изображении.

10. Open Images Challenge 2019 состоит из 9 миллионов изображений. Является одним из самых крупных размеченных датасетов для задач компьютерного зрения.

11. Open Images V4 – это одна из версий датасета Open Images. V4 содержит 14.6 миллиона границ объектов для объектов 600 классов.

12. AFLW2K3D содержит 2 тысячи изображений лица с разметкой ключевых точек.

Обработка видеозаписей

13. UCF101 предназначен для обучения моделей распознавания действий. Состоит из 13,320 видео, в которых запечатлены действия из 101 категорий.

14. BAIR Robot Pushing – это набор из 44 тысяч видео, где робот совершает толкающие действия

15. Moving MNIST – это вариация датасета MNIST benchmark. Состоит из 10 тысяч видео, движущихся цифр.

16. EMNIST – это расширенный MNIST.

Обработка аудиозаписей

17. CREMA-D – датасет для распознавания эмоций по записи голоса. Содержит 7 тысяч аудиоклипов.

18. Librispeech – это 1 тысяча часов английской речи, которую собрали из аудиокниг.

19. Libritts содержит 585 часов английской речи. Датасет создавали при помощи исследователей из Google Brain.

20. TED-LIUM – это датасет, который состоит из 110 часов английской речи из TED выступлений, который также имеют транскрипт.

21. VoxCeleb – набор аудио для задачи идентификации говорящего с аудиофайлами 1,251 спикеров.

Текстовые датасеты

22. C4 (Common Crawl’s Web Crawl Corpus) содержит отфильтрованные тексты вебстраниц из Common Crawl на более чем 40 языках.

23. Civil Comments – это архив 1.8 миллиона примеров публичных комментариев с англоязычных новостных сайтов.

24. IRC Disentanglement содержит более 77 тысяч комментариев из обсуждений Ubuntu IRC Channel.

25. Lm1b состоит из 1 миллиарда слов. Изначально корпус использовали для оценки статистических языковых моделей.

26. SNLI (Stanford Natural Language Inference Dataset) является корпусов 570 тысяч пар предложений, которые были написаны людьми.

27. e-SNLI – это расширение SNLI датасета, в который добали разметку пар предложений.

28. MultiNLI состоит из 433 тысяч пар предложений.

29. Wiki40b – это набор статей на Wikipedia на 40 языках. Данные отфильтровали и оставили только содержательный текст страниц.

30. Yelp Polarity Reviews содержит полярные отзывы на Yelp, более 580 тысяч отзывов.