Taskmaster-2: датасет с диалогами от Google Research

30 марта 2020

Taskmaster-2: датасет с диалогами от Google Research

Taskmaster-2 — это датасет с 17,289 диалогов на 7 тем: рестораны, заказ еды, кино, отели, полеты, музыка и спорт. Все диалоги в датасете собирали с помощью системы Wizard of Oz…

AllenAI опубликовали 10 соревнований по обработке исследований о COVID-19

17 марта 2020

AllenAI опубликовали 10 соревнований по обработке исследований о COVID-19

Исследователи из AllenAI опубликовали на Kaggle датасет с 29 тысячами открытых научных статей о COVID-19. Для COVID-19 Open Research Dataset доступны 10 соревнований в области обработки естественного языка.  Описание датасета…

DroneVehicle: датасет для подсчета объектов на изображениях с дрона

15 марта 2020

DroneVehicle: датасет для подсчета объектов на изображениях с дрона

DroneVehicle — это датасет с 15,532 RGB снимками с дронов. Для каждого изображения есть инфракрасный снимок. Разметка объектов доступна и для RGB, и для инфракрасных снимков. В датасете размечены направленные…

Lexikon: внутренняя система рекомендации датасетов в Spotify

3 марта 2020

Lexikon: внутренняя система рекомендации датасетов в Spotify

Lexikon — это внутренняя рекомендательная система датасетов в Spotify. Цель Lexikon заключается в том, чтобы облегчить поиск данных для сотрудников, которые занимаются анализом данных. Мотивация для создания Lexikon В 2016…

Open Images V6: Google AI обновили самый крупный датасет для компьютерного зрения

2 марта 2020

Open Images V6: Google AI обновили самый крупный датасет для компьютерного зрения

Google AI опубликовали шестую версию датасета Open Images, — Open Images V6. В Open Images добавили разметку взаимосвязей объектов на изображении, человеческих действий и лейблы изображений. Помимо этого, в шестой…

Annotate.online: платформа для автоматизации разметки данных

25 февраля 2020

Annotate.online: платформа для автоматизации разметки данных

Annotate.online — это платформа для автоматизации процесса разметки данных. Разметка данных для обучения моделей является ресурсоемких процессом. Это особенно актуально для задач компьютерного зрения. SuperAnnotate разработали инструмент, который облегчает ручную…

CCMatrix: FAIR опубликовали датасет для обучения моделей машинного перевода

8 февраля 2020

CCMatrix: FAIR опубликовали датасет для обучения моделей машинного перевода

CCMatrix — это самый крупный датасет параллельных текстов для обучения моделей машинного перевода. Данные включают в себя 4.5 миллиарда параллельных предложений на 576 пар языков. Предложения собирали из открытого датасета…

BREAK: данные, чтобы обучить нейросеть понимать суть вопроса

4 февраля 2020

BREAK: данные, чтобы обучить нейросеть понимать суть вопроса

BREAK — это датасет для решения задачи понимания сути вопроса нейросетью. Он предназначен для того, чтобы модели вычленяли из комплексных вопросов сущности, которые помогут при генерации ответов. Датасет состоит из…

Google AI опубликовали самую крупную карту нейронных связей в мозге

24 января 2020

Google AI опубликовали самую крупную карту нейронных связей в мозге

Google AI совместно с исследовательской командой FlyEM опубликовали коннектом мозга мухи. Коннектом — это описание структуры в нервной системе организма.  Коннектом получили с помощью 3D изображений половины мозга мухи. Он…

Google опубликовали 25 миллионов открытых датасетов

24 января 2020

Google опубликовали 25 миллионов открытых датасетов

Google запустили поисковый сервис датасетов для машинного обучения. Google Dataset Search позволяет искать данные из 25 миллионов открытых датасетов. Поисковая система отличается от аналогов тем, что Dataset Search не собирает…

3DPEOPLE: датасет с 3D моделями одетых людей

19 января 2020

3DPEOPLE: датасет с 3D моделями одетых людей

3DPeople — это первый датасет с изображениями 3D моделей одетых людей, в котором содержится отдельно геометрическое представление одежды. Датасет включает в себя 2.5 миллиона изображений с 80 людьми, которые совершают…

AraNet: инструмент для анализа данных из социальных сетей на арабском

16 января 2020

AraNet: инструмент для анализа данных из социальных сетей на арабском

AraNet — это набор предобученных NLP моделей для работы с данными на арабском языке. В AraNet доступны датасеты из социальных сетей на арабском, чтобы обучать двусторонние энкодеры предсказывать возраст, диалект,…

Agriculture-Vision: соревнование по применению компьютерного зрения для сельского хозяйства

16 января 2020

Agriculture-Vision: соревнование по применению компьютерного зрения для сельского хозяйства

Agriculture-Vision — это датасет для семантической сегментации с фотографиями фермерских полей. Изображения были сняты с воздуха. Всего в датасете около 95 тысяч фотографий в высоком разрешении с 3 тысяч угодий…

Libri-light: датасет для unsupervised распознавания речи от FAIR

3 января 2020

Libri-light: датасет для unsupervised распознавания речи от FAIR

FAIR опубликовали самый крупный датасет для распознавания речи. Libri-light содержит 60 тысяч часов неразмеченной речи на английском языке.  Данные для Libri-light собирали из общедоступных аудиофайлов и адаптировали для задачи автоматического…

SketchTransfer: датасет для обучения нейросетей обобщению

31 декабря 2019

SketchTransfer: датасет для обучения нейросетей обобщению

SketchTransfer — это датасет для обучения нейросетей обобщению с помощью transfer learning. Данные состоят из реальных размеченных изображений и не размеченных скетчей. Стандартные state-of-the-art подходы, которые получают точность 95% на…

STAPLE: соревнование по машинному переводу от Duolingo

21 декабря 2019

STAPLE: соревнование по машинному переводу от Duolingo

Duolingo анонсировали соревнование по машинному переводу STAPLE. На текущий момент большинство систем по машинному переводу выдают один перевод входной последовательности. В Duolingo пользователь обучается языку с помощью упражнений по переводу.…

ObjectNet: датасет с объектами, которые сложно распознать нейросети

11 декабря 2019

ObjectNet: датасет с объектами, которые сложно распознать нейросети

ObjectNet — это датасет для задач компьютерного зрения. В ObjectNet нет разделения на обучающую и тестовую выборки, доступна только тестовая. С помощью датасета можно проверить обобщающую способность обученной нейросети. Созданием…

GitHub Typo Corpus: мультиязычный датасет с опечатками

9 декабря 2019

GitHub Typo Corpus: мультиязычный датасет с опечатками

GitHub Typo Corpus — это набор данных с опечатками и грамматическими ошибками на разных языках. Данные ошибок собирали из коммитов GitHub репозиториев. Всего в датасете более 350 тысяч исправлений на…

OOPS: датасет для распознавания непреднамеренных действия на видеозаписи

30 ноября 2019

OOPS: датасет для распознавания непреднамеренных действия на видеозаписи

OOPS — это датасет с видеозаписями действий людей, который предназначен для распознавания непреднамеренных действий. Созданием датасета занимались исследователи из Columbia University. Исследователи обучили базовую модель с учителем и сравнили ее…

Objects365: датасет для распознавания объектов

9 ноября 2019

Objects365: датасет для распознавания объектов

Objects365 — это самый крупный размеченный датасет для распознавания объектов. Данные состоят из 638 тысяч изображений, 365 категорий объектов и 10 миллионов размеченных границ объектов. Датасет и предобученные нейросети доступны…

JRDB: датасет для обучения нейросетей визуальному восприятию

8 ноября 2019

JRDB: датасет для обучения нейросетей визуальному восприятию

JRDB — это набор данных с 64 минутами мультимодальных сенсорных данных. Датасет был собран с помощью робота JackRabbot. Данные содержат видео 360 градусов, 3D облака точек, аудиосигналы, сферическую панораму и…