AraNet: инструмент для анализа данных из социальных сетей на арабском

16 января 2020

AraNet: инструмент для анализа данных из социальных сетей на арабском

AraNet — это набор предобученных NLP моделей для работы с данными на арабском языке. В AraNet доступны датасеты из социальных сетей на арабском, чтобы обучать двусторонние энкодеры предсказывать возраст, диалект,…

Agriculture-Vision: соревнование по применению компьютерного зрения для сельского хозяйства

16 января 2020

Agriculture-Vision: соревнование по применению компьютерного зрения для сельского хозяйства

Agriculture-Vision — это датасет для семантической сегментации с фотографиями фермерских полей. Изображения были сняты с воздуха. Всего в датасете около 95 тысяч фотографий в высоком разрешении с 3 тысяч угодий…

Libri-light: датасет для unsupervised распознавания речи от FAIR

3 января 2020

Libri-light: датасет для unsupervised распознавания речи от FAIR

FAIR опубликовали самый крупный датасет для распознавания речи. Libri-light содержит 60 тысяч часов неразмеченной речи на английском языке.  Данные для Libri-light собирали из общедоступных аудиофайлов и адаптировали для задачи автоматического…

SketchTransfer: датасет для обучения нейросетей обобщению

31 декабря 2019

SketchTransfer: датасет для обучения нейросетей обобщению

SketchTransfer — это датасет для обучения нейросетей обобщению с помощью transfer learning. Данные состоят из реальных размеченных изображений и не размеченных скетчей. Стандартные state-of-the-art подходы, которые получают точность 95% на…

STAPLE: соревнование по машинному переводу от Duolingo

21 декабря 2019

STAPLE: соревнование по машинному переводу от Duolingo

Duolingo анонсировали соревнование по машинному переводу STAPLE. На текущий момент большинство систем по машинному переводу выдают один перевод входной последовательности. В Duolingo пользователь обучается языку с помощью упражнений по переводу.…

ObjectNet: датасет с объектами, которые сложно распознать нейросети

11 декабря 2019

ObjectNet: датасет с объектами, которые сложно распознать нейросети

ObjectNet — это датасет для задач компьютерного зрения. В ObjectNet нет разделения на обучающую и тестовую выборки, доступна только тестовая. С помощью датасета можно проверить обобщающую способность обученной нейросети. Созданием…

GitHub Typo Corpus: мультиязычный датасет с опечатками

9 декабря 2019

GitHub Typo Corpus: мультиязычный датасет с опечатками

GitHub Typo Corpus — это набор данных с опечатками и грамматическими ошибками на разных языках. Данные ошибок собирали из коммитов GitHub репозиториев. Всего в датасете более 350 тысяч исправлений на…

OOPS: датасет для распознавания непреднамеренных действия на видеозаписи

30 ноября 2019

OOPS: датасет для распознавания непреднамеренных действия на видеозаписи

OOPS — это датасет с видеозаписями действий людей, который предназначен для распознавания непреднамеренных действий. Созданием датасета занимались исследователи из Columbia University. Исследователи обучили базовую модель с учителем и сравнили ее…

Objects365: датасет для распознавания объектов

9 ноября 2019

Objects365: датасет для распознавания объектов

Objects365 — это самый крупный размеченный датасет для распознавания объектов. Данные состоят из 638 тысяч изображений, 365 категорий объектов и 10 миллионов размеченных границ объектов. Датасет и предобученные нейросети доступны…

JRDB: датасет для обучения нейросетей визуальному восприятию

8 ноября 2019

JRDB: датасет для обучения нейросетей визуальному восприятию

JRDB — это набор данных с 64 минутами мультимодальных сенсорных данных. Датасет был собран с помощью робота JackRabbot. Данные содержат видео 360 градусов, 3D облака точек, аудиосигналы, сферическую панораму и…

VTAB: задачи для проверки качества представлений изображений

7 ноября 2019

VTAB: задачи для проверки качества представлений изображений

Google AI опубликовали тестовые задачи для оценки моделей, которые генерируют представления изображений. VTAB (The Visual Task Adaptation Benchmark) состоит из 19 датасетов. Результаты моделей фиксируются на публичном лидерборде. Описание проблемы…

DFDC: соревнование по распознаванию deepfake

1 ноября 2019

DFDC: соревнование по распознаванию deepfake

Deepfake Detection Challenge (DFDC) — это соревнование по распознаванию deepfake на видеозаписях. Дата начала соревнования назначена на декабрь. Частично датасет доступен публично. Публикация полного датасета пройдет на конференции Neural Information…

WiderPerson: датасет для распознавания пешеходов

14 октября 2019

WiderPerson: датасет для распознавания пешеходов

WiderPerson — это датасет для распознавания пешеходов на изображениях. Данные состоят из 13,382 изображений и 399,786 разметок. Разметка делится на пять категорий: пешеходы, водители, частично видимые люди, толпа и игнорируемые…

MRCNet: нейросеть считает людей в толпе с высоты

11 октября 2019

MRCNet: нейросеть считает людей в толпе с высоты

MRCNet — это сверточная нейросеть, которая по снимкам с воздуха определяет количество людей на снимке. Исследователи выложили датасет с фотографиями людных мероприятий с высоты DLR-ACD. На основной части снимков запечатлены…

Google опубликовали датасет с фейковыми видео

1 октября 2019

Google опубликовали датасет с фейковыми видео

FaceForensics — это датасет с фейковыми видео людей, который был дополнен Google. Датасет выложили, чтобы поддержать исследования в распознавании deepfake контента. Данные содержат 3 тысячи сгенерированных видеозаписей. Датасет собирался в…

DISCOMAN: датасет с размеченными изображениями интерьера

1 октября 2019

DISCOMAN: датасет с размеченными изображениями интерьера

DISCOMAN — это датасет с сгенерированными изображениями интерьера в высоком разрешении. Датасет содержит 200 разных траекторий передвижений на одной локации. Каждая траектория содержит от 3 до 5 тысяч кадров. Каждое…

CodeSearchNet: соревнование по поиску в коде от GitHub

26 сентября 2019

CodeSearchNet: соревнование по поиску в коде от GitHub

GitHub опубликовали данные с 6 миллионами функций на Go, Java, JavaScript, PHP, Python и Ruby. Данные включают документацию и метахарактеристики, помимо файлов с кодом. На этих данных компания запустила соревнования…

Сгенерированные лица людей можно использовать коммерческих целях

24 сентября 2019

Сгенерированные лица людей можно использовать коммерческих целях

Проект generated.photos опубликовали датасет с 100 тысячами лиц в высоком разрешении. Изображения лиц были сгенерированы с помощью StyleGAN. StyleGAN — это state-of-the-art генеративная нейросеть. Опубликованные изображения можно свободно использовать в…

A2D2: Audi опубликовали датасет для задачи автономного вождения

24 сентября 2019

A2D2: Audi опубликовали датасет для задачи автономного вождения

A2D2 — это датасет с размеченными изображениями дорог для обучения моделей автономному вождению. Данные собирали Audi. Сам датасет содержит в себе семантическую сегментацию изображений дорог, разметку облака точек. Для части…

Нейросеть дополняет изображение частью другого изображения

16 сентября 2019

Нейросеть дополняет изображение частью другого изображения

Исследователи модифицировали 4 популярных датасета для задачи гармонизации изображения. Датасеты, которые были использованы: COCO, Adobe5k, Flickr, day2night. Гармонизация изображения — это задача переноса переднего плана одного изображения на другое изображение.…

CURE-TSD-Real: датасет для проверки системы по распознаванию объектов

13 сентября 2019

CURE-TSD-Real: датасет для проверки системы по распознаванию объектов

CURE-TSD-Real содержит модифицированные изображения дорожных знаков, которые сложно распознать стандартным нейросетям. Дообучение модели на таком наборе данных позволит оценить устойчивость ее предсказаний. Датасет был собран исследователями из Georgia Tech. Исследователи…