WiderPerson: датасет для распознавания пешеходов

14 октября 2019

WiderPerson: датасет для распознавания пешеходов

WiderPerson — это датасет для распознавания пешеходов на изображениях. Данные состоят из 13,382 изображений и 399,786 разметок. Разметка делится на пять категорий: пешеходы, водители, частично видимые люди, толпа и игнорируемые…

MRCNet: нейросеть считает людей в толпе с высоты

11 октября 2019

MRCNet: нейросеть считает людей в толпе с высоты

MRCNet — это сверточная нейросеть, которая по снимкам с воздуха определяет количество людей на снимке. Исследователи выложили датасет с фотографиями людных мероприятий с высоты DLR-ACD. На основной части снимков запечатлены…

Google опубликовали датасет с фейковыми видео

1 октября 2019

Google опубликовали датасет с фейковыми видео

FaceForensics — это датасет с фейковыми видео людей, который был дополнен Google. Датасет выложили, чтобы поддержать исследования в распознавании deepfake контента. Данные содержат 3 тысячи сгенерированных видеозаписей. Датасет собирался в…

DISCOMAN: датасет с размеченными изображениями интерьера

1 октября 2019

DISCOMAN: датасет с размеченными изображениями интерьера

DISCOMAN — это датасет с сгенерированными изображениями интерьера в высоком разрешении. Датасет содержит 200 разных траекторий передвижений на одной локации. Каждая траектория содержит от 3 до 5 тысяч кадров. Каждое…

CodeSearchNet: соревнование по поиску в коде от GitHub

26 сентября 2019

CodeSearchNet: соревнование по поиску в коде от GitHub

GitHub опубликовали данные с 6 миллионами функций на Go, Java, JavaScript, PHP, Python и Ruby. Данные включают документацию и метахарактеристики, помимо файлов с кодом. На этих данных компания запустила соревнования…

Сгенерированные лица людей можно использовать коммерческих целях

24 сентября 2019

Сгенерированные лица людей можно использовать коммерческих целях

Проект generated.photos опубликовали датасет с 100 тысячами лиц в высоком разрешении. Изображения лиц были сгенерированы с помощью StyleGAN. StyleGAN — это state-of-the-art генеративная нейросеть. Опубликованные изображения можно свободно использовать в…

A2D2: Audi опубликовали датасет для задачи автономного вождения

24 сентября 2019

A2D2: Audi опубликовали датасет для задачи автономного вождения

A2D2 — это датасет с размеченными изображениями дорог для обучения моделей автономному вождению. Данные собирали Audi. Сам датасет содержит в себе семантическую сегментацию изображений дорог, разметку облака точек. Для части…

Нейросеть дополняет изображение частью другого изображения

16 сентября 2019

Нейросеть дополняет изображение частью другого изображения

Исследователи модифицировали 4 популярных датасета для задачи гармонизации изображения. Датасеты, которые были использованы: COCO, Adobe5k, Flickr, day2night. Гармонизация изображения — это задача переноса переднего плана одного изображения на другое изображение.…

CURE-TSD-Real: датасет для проверки системы по распознаванию объектов

13 сентября 2019

CURE-TSD-Real: датасет для проверки системы по распознаванию объектов

CURE-TSD-Real содержит модифицированные изображения дорожных знаков, которые сложно распознать стандартным нейросетям. Дообучение модели на таком наборе данных позволит оценить устойчивость ее предсказаний. Датасет был собран исследователями из Georgia Tech. Исследователи…

Google опубликовали два датасета с записями диалогов

7 сентября 2019

Google опубликовали два датасета с записями диалогов

Google опубликовали два датасета с диалогами для обучения виртуальных ассистентов: Coached Conversational Preference Elicitation (CCPE) и Taskmaster-1. Первый набор данных содержит разговоры людей о своих предпочтениях. Второй датасет описывает то,…

fastMRI: соревнование по восстановлению томографических снимков

5 сентября 2019

fastMRI: соревнование по восстановлению томографических снимков

FastMRI — это совместный исследовательский проект FAIR и NYU School of Medicine. Цель проекта — ускорить проведение томографии в 10 раз и сделать процедуру более доступной. Сегодня Facebook открыли данные…

Нейросеть учится отвечать на открытые вопросы

28 июля 2019

Нейросеть учится отвечать на открытые вопросы

Facebook AI представили новую задачу по обработке естественного языка — ответы на открытые вопросы. Исследователи выложили в открытый доступ данные, код и результаты базовых моделей. Чтобы поспособствовать развитию умных ассистентов…

ImageNet-A: как снизить точность предсказаний нейросети на 90%

27 июля 2019

ImageNet-A: как снизить точность предсказаний нейросети на 90%

ImageNet-A — это датасет с примерами изображений, которые нейросеть не может классифицировать верно. По результатам, модели предсказывали объекты из датасета с точностью в 3%. В то время как для стандартного…

CellSignal: соревнование по детекции шума на изображениях клеток

27 июля 2019

CellSignal: соревнование по детекции шума на изображениях клеток

Компания Recursion, которая занимается применением машинного обучения для разработки лекарств, опубликовала датасет RxRx1. RxRx1 содержит в себе 296 гигабайт изображений с микроскопа. Компания запустила соревнование на Kaggle по распознаванию технического…

Google открыли соревнование по сегментации изображений

14 июля 2019
google brain bert ai

Google открыли соревнование по сегментации изображений

Google запустили второе соревнование по компьютерному зрению на Kaggle — Open Images 2019. Соревнование делится на три трека: распознавание объектов, выявление взаимосвязей между объектами и instance сегментация объектов. Участие можно…

CoS-E: датасет для обучения нейросетей здравому смыслу

13 июля 2019

CoS-E: датасет для обучения нейросетей здравому смыслу

CoS-E — датасет, который состоит из описания обыденных случаев и объяснений к ним. Датасет собирали исследователи из Salesforce. Данные доступны по ссылке. Примеры из датасета. Единица данных состоит из вопроса,…

YouTube-8M Segments: датасет с видеозаписями из YouTube

29 июня 2019

YouTube-8M Segments: датасет с видеозаписями из YouTube

YouTube-8M — это датасет с видеозаписями из YouTube, который собрали в Google. В обновленной версии датасета для части видеозаписей разметили содержание видео в динамике. Компания запустила соревнование по анализу видеоданных…

Waymo публикует данные для обучения автопилотных автомобилей

24 июня 2019

Waymo публикует данные для обучения автопилотных автомобилей

Waymo публикуют датасет для обучения моделей автопилотных автомобилей. Датасет будет включать в  себя видеозаписи вождения с размеченными объектами. Компания Waymo разрабатывает автопилотные автомобили с 2009 года и входит в группу…

MineRL: датасет с демонстрациями игры в Minecraft для решения RL задач

13 мая 2019

MineRL: датасет с демонстрациями игры в Minecraft для решения RL задач

Исследователи из Microsoft, CMU и других университетов опубликовали датасет с записями игр в Minecraft. Соревнование открывается 1-го июня и длится до 25-го октября. Участникам предлагается обучить модель, которая сумела бы…

Google AI расширила датасет для распознавания достопримечательностей

9 мая 2019
Достопримечательности из датасета

Google AI расширила датасет для распознавания достопримечательностей

Google AI выпустила Google-Landmarks-v2, вторую версию крупнейшего датасета для распознавания достопримечательностей , расширив его до 5 миллионов изображений (в 2 раза). Особенностью датасета стало количество достопримечательностей — более 200 тысяч…

Российский Speech-to-text датасет (STT/ASR)

8 мая 2019
Российский Speech-to-text датасет

Российский Speech-to-text датасет (STT/ASR)

Группа российских разработчиков выпустила свободный датасет speech-to-text на русском языке, содержащий более 4000 тысяч часов записей с голосом для исследователей и разработчиков приложений с распознаванием речи. В ближайшее время создатели…