MineRL: датасет с демонстрациями игры в Minecraft для решения RL задач

13 мая 2019

MineRL: датасет с демонстрациями игры в Minecraft для решения RL задач

Исследователи из Microsoft, CMU и других университетов опубликовали датасет с записями игр в Minecraft. Соревнование открывается 1-го июня и длится до 25-го октября. Участникам предлагается обучить модель, которая сумела бы…

Google AI расширила датасет для распознавания достопримечательностей

9 мая 2019
Достопримечательности из датасета

Google AI расширила датасет для распознавания достопримечательностей

Google AI выпустила Google-Landmarks-v2, вторую версию крупнейшего датасета для распознавания достопримечательностей , расширив его до 5 миллионов изображений (в 2 раза). Особенностью датасета стало количество достопримечательностей — более 200 тысяч…

Российский Speech-to-text датасет (STT/ASR)

8 мая 2019
Российский Speech-to-text датасет

Российский Speech-to-text датасет (STT/ASR)

Группа российских разработчиков выпустила свободный датасет speech-to-text на русском языке, содержащий более 4000 тысяч часов записей с голосом для исследователей и разработчиков приложений с распознаванием речи. В ближайшее время создатели…

ProductNet: датасет изображений товаров от Amazon

30 апреля 2019

ProductNet: датасет изображений товаров от Amazon

Исследователи из Amazon опубликовали аналог датасета ImageNet для товаров. Изображения товаров систематизированы и представлены в высоком разрешении. ProductNet создан с целью улучшить обучение представлений товаров. Помимо датасета, исследователи опубликовали модель,…

MRNet: датасет МРТ-снимков коленных суставов

24 апреля 2019
коленный сустав

MRNet: датасет МРТ-снимков коленных суставов

Stanford ML Group выпустила свой третий публичный датасет медицинских обследований, названный MRNet, который можно найти здесь. Чтобы получить его, сначала вы должны зарегистрировать учетную запись в Stanford ML Group, а…

DeepMind объявила конкурс по созданию нейросетей, решающих математические задачи

8 апреля 2019
deepmind maths challenge

DeepMind объявила конкурс по созданию нейросетей, решающих математические задачи

Исследователи из DeepMind открыли доступ к датасету математических задач и ответов к ним и проверили то, как существующие архитектуры справляются с предсказанием ответа на математическую задачу. В будущем это может…

Mozilla опубликовала крупнейший набор данных голосов на 18 языках

1 марта 2019

Mozilla опубликовала крупнейший набор данных голосов на 18 языках

Mozilla опубликовала открытый датасет Common Voice, который содержит 1400 часов записей человеческой речи на 18 языках, включая английский, французский, немецкий и редкие языки — валлийский, кабильский и другие. Это самый…

В TensorFlow появилась функция преобразования датасетов в формат tf.data

28 февраля 2019

В TensorFlow появилась функция преобразования датасетов в формат tf.data

Разработчики Google представили функцию TensorFlow Datasets для преобразования любых общедоступных наборов данных в формат tf.data. Открытые наборы данных для обучения моделей распространяются и хранятся в разных форматах. Написание скриптов для загрузки и…

Hotels-50K: датасет с миллионом фотографий номеров отелей

7 февраля 2019

Hotels-50K: датасет с миллионом фотографий номеров отелей

Датасет Hotels-50K содержит миллион изображений из 50 000 отелей в разных странах. Датасет c номерами отелей создан с целью сопоставлять фотографии со снимками жертв human traffic (торговли людьми) из незаконной онлайн-рекламы,…

FaceForencis — крупнейший датасет для распознавания фейковых фото и видео

5 февраля 2019
FaceForencis датасет

FaceForencis — крупнейший датасет для распознавания фейковых фото и видео

FaceForencis — набор данных изображений, созданных с использованием методов Face2Face, FaceSwap и DeepFakes. Данные собраны исследователями из Италии и Германии, чтобы улучшить точность моделей распознавания поддельных фото. Кроме набора данных…

Diversity in Faces — датасет от IBM с миллионом лиц для борьбы с предвзятостью алгоритмов

30 января 2019
diversity faces dataset ibm

Diversity in Faces — датасет от IBM с миллионом лиц для борьбы с предвзятостью алгоритмов

Diversity in Faces — большой и разнообразный набор данных, который содержит миллион изображений размеченных лиц людей. Открывая доступ к датасету, в IBM Research надеются повысить точность распознавания лиц людей разных…

RobotriX — датасет для обучения роботов взаимодействию с объектами в помещениях

29 января 2019

RobotriX — датасет для обучения роботов взаимодействию с объектами в помещениях

RobotriX — новый датасет для обучения роботов взаимодействию с объектами в помещениях. Набор данных состоит из гиперреалистичных внутренних сцен, которые исследуются агентами-роботами. Роботы реалистично взаимодействуют с объектами в моделируемом мире. Сцены…

18 млн изображений и 11 000 классов: Tencent опубликовала крупнейший размеченный датасет

15 января 2019
Tencent ML images

18 млн изображений и 11 000 классов: Tencent опубликовала крупнейший размеченный датасет

Компания Tecent выложила в открытый доступ датасет Tencent ML-Images с 11 тысячами классов и 18 миллионами изображений, каждое из которых содержит в среднем 8 меток. На GitHub доступна предобученная модель…

Датасеты для отслеживания объектов на видео

16 ноября 2018

Датасеты для отслеживания объектов на видео

Глубокое обучение лежит в основе работы современных трекеров объектов в видеопотоке. Однако до сих пор существует недостаток больших датасетов для обучения алгоритмов отслеживания. Известные наборы данных (например, VOT и OTB) относительно…

Новые датасеты для оценки позы в 3D

12 ноября 2018

Новые датасеты для оценки позы в 3D

Оценка позы в 3D — фундаментальная задача компьютерного зрения. Способность компьютера распознавать людей на изображениях и видео применяется в беспилотном вождении, распознавании действий, взаимодействии человека с компьютером, дополненной реальности и робототехнике. В…

Новые датасеты для распознавания объектов в 3D

8 ноября 2018

Новые датасеты для распознавания объектов в 3D

Робототехника, дополненная реальность, беспилотное вождение — все эти области основаны на распознавании 3D-свойств объектов по 2D-изображениям. Как следствие, трехмерное распознавание объектов стало одной из центральных задач компьютерного зрения. Заметный прогресс…

Новые датасеты для задачи распознавания действий на видео

25 октября 2018
action recognition datasets

Новые датасеты для задачи распознавания действий на видео

Распознавание действий крайне важно для задач видеонаблюдения, здравоохранения и взаимодействия человека с компьютером. Но как классифицировать видео по действиям, выполняемым на них? Классифицировать видео, на которых выполняется только одно действие, не…

Датасеты для распознавания лиц в сложных условиях — в масках, очках, с макияжем

11 октября 2018
Датасеты для распознавания лиц в сложных условиях — в масках, очках, с макияжем, в старости

Датасеты для распознавания лиц в сложных условиях — в масках, очках, с макияжем

Распознавание лиц — рядовая задача глубокого обучения, и сверточные нейронные сети справляются с ней довольно хорошо. Facebook обычно правильно распознает вас и ваших друзей на фотографиях. Но является ли данная…

UFDD — датасет для обнаружения лиц в условиях дождя, снега, тумана и в движении

21 сентября 2018
UFFD face detection dataset

UFDD — датасет для обнаружения лиц в условиях дождя, снега, тумана и в движении

Решение задачи распознавания лица на изображении подразумевает, что сначала нужно обнаружить это лицо. Механизмы детекции лиц улучшилось за последние годы, алгоритмы работают при  различающихся масштабах и позах. Тем не менее, некоторые проблемы…

Google представил инструмент для быстрого поиска датасетов

6 сентября 2018
google dataset search

Google представил инструмент для быстрого поиска датасетов

В интернете есть репозитории, которые обеспечивают доступ к миллионам наборов данных. Проблема в том, что трудно найти датасет, если нет прямой ссылки на него. Наборы данных плохо индексируется поисковиками, а если внутри нет описания…

Как создать собственный датасет из картинок Google

13 июня 2018
grabber for google images

Как создать собственный датасет из картинок Google

Данные — это топливо, которое двигает глубокое обучение вперёд. Объём данных, свободно доступных в Сети, постоянно растёт. Большие датасеты с изображениями, такие как Pascal VOC, ImageNet и относительно свежий датасет Google Open…