fbpx
  • 30 самых крупных датасетов для машинного обучения в TensorFlow

    TensorFlow — это одна из наиболее популярных открытых библиотек с датасетами для задач машинного обучения. Разработкой TensorFlow занимаются исследователи из Google Brain. Библиотека предоставляет доступ к датасетам с изображениями, видео, аудио и текстами.

    Датасеты изображений

    1. CelebA: один из наиболее крупных публичных датасетов с изображениями лиц. Celebrity Faces Attributes Dataset (CelebA) состоит из более чем 200 тысяч изображений знаменитостей.

    2. Downsampled Imagenet: датасет собирали для оценки глубины изображений и задач генерации. Он содержит более 1.3 миллионов изображений объектов, сцен, транспортных средств, людей и т.п.

    3. Lsun – это набор широкомасштабных изображений, который используется для задач оценки сцены (scene understanding). Датасет содержит более 9 миллионов изображений сцен, которые поделены на категории.

    4. Bigearthnet содержит изображения с воздуха со спутника Sentinel-2.  

    5. Places 365 состоит из 1.8 миллионов изображений разных мест и сцен, включая офис, коттедж и пирс.

    6. Quickdraw Bitmap – это набор изображений, нарисованных с помощью Quickdraw. Он состоит из 5 миллионов рисунков 345 категорий.

    7. SVHN Cropped – это датасет от Stanford University для обучению моделей распознавания цифр.

    8. VGGFace2 – один из наиболее крупных датасетов с изображениями. Он состоит из изображений, собранных с помощью Google поиска.

    9. COCO собирали в коллаборации Google, FAIR, Caltech и других организаций. COCO создавали для задач распознавания объектов и сегментации объектов на изображении.

    10. Open Images Challenge 2019 состоит из 9 миллионов изображений. Является одним из самых крупных размеченных датасетов для задач компьютерного зрения.

    11. Open Images V4 – это одна из версий датасета Open Images. V4 содержит 14.6 миллиона границ объектов для объектов 600 классов.

    12. AFLW2K3D содержит 2 тысячи изображений лица с разметкой ключевых точек. 

    Обработка видеозаписей

    13. UCF101 предназначен для обучения моделей распознавания действий. Состоит из 13,320 видео, в которых запечатлены действия из 101 категорий.

    14. BAIR Robot Pushing – это набор из 44 тысяч видео, где робот совершает толкающие действия

    15. Moving MNIST – это вариация датасета MNIST benchmark. Состоит из 10 тысяч видео, движущихся цифр.

    16. EMNIST – это расширенный MNIST.

    Обработка аудиозаписей

    17. CREMA-D – датасет для распознавания эмоций по записи голоса. Содержит 7 тысяч аудиоклипов.

    18. Librispeech – это 1 тысяча часов английской речи, которую собрали из аудиокниг.

    19. Libritts содержит 585 часов английской речи. Датасет создавали при помощи исследователей из Google Brain.

    20. TED-LIUM – это датасет, который состоит из 110 часов английской речи из TED выступлений, который также имеют транскрипт.

    21. VoxCeleb – набор аудио для задачи идентификации говорящего с аудиофайлами 1,251 спикеров.

    Текстовые датасеты

    22. C4 (Common Crawl’s Web Crawl Corpus) содержит отфильтрованные тексты вебстраниц из Common Crawl на более чем 40 языках.

    23. Civil Comments – это архив 1.8 миллиона примеров публичных комментариев с англоязычных новостных сайтов.

    24. IRC Disentanglement содержит более 77 тысяч комментариев из обсуждений Ubuntu IRC Channel.

    25. Lm1b состоит из 1 миллиарда слов. Изначально корпус использовали для оценки статистических языковых моделей.

    26. SNLI (Stanford Natural Language Inference Dataset) является корпусов 570 тысяч пар предложений, которые были написаны людьми.

    27. e-SNLI – это расширение SNLI датасета, в который добали разметку пар предложений.

    28. MultiNLI состоит из 433 тысяч пар предложений. 

    29. Wiki40b – это набор статей на Wikipedia на 40 языках. Данные отфильтровали и оставили только содержательный текст страниц.

    30. Yelp Polarity Reviews содержит полярные отзывы на Yelp, более 580 тысяч отзывов.