HateXplain: датасет для интерпретируемого распознавания хейтспича

7 января 2021

HateXplain: датасет для интерпретируемого распознавания хейтспича

HateXplain — это датасет для обучения моделей распознавания оскорблений в тексте. Датасет собирали исследователи из Indian Institute of Technology и University of Hamburg. Датасет разрабатывали так, что бы учитывать метрики…

MeDAL: датасет для расшифровки медицинских аббревиатур

7 января 2021

MeDAL: датасет для расшифровки медицинских аббревиатур

MeDAL — это датасет для расшифровки медицинских аббревиатур. Датасет собирали для предобучения моделей обработки естественного языка для медицинского домена. Данные опубликовали на воркшопе ClinicalNLP на конференции EMNLP. По результатам экспериментов,…

RECCON: датасет для распознавания причины эмоций в тексте

6 января 2021

RECCON: датасет для распознавания причины эмоций в тексте

RECCON — это датасет для распознавания причины эмоций в тексте. Создатели предлагают две задачи, которые можно решать с помощью датасета: извлечение каузальных диапазонов в тексте и извлечения каузального следствия эмоции.…

Polars: быстрая альтернатива Pandas для обработки датасетов

19 декабря 2020

Polars: быстрая альтернатива Pandas для обработки датасетов

Polars — это открытая библиотека для обработки массивов данных на Python. По скорости работы библиотека обходит самый популярный инструмент для работы с данными, — Pandas. Кроме того, библиотека более эффективно…

Hypersim: датасет с разметкой изображений интерьеров от Apple

19 декабря 2020

Hypersim: датасет с разметкой изображений интерьеров от Apple

Hypersim — это датасет с фотореалистичными синтетическими изображениями интерьеров. Для каждого изображения доступны попиксельная разметка объектов и геометрия сцены. Датасет состоит из 77.4 тысяч изображений 461 сцены.  Проблема Для многих…

MoGaze: датасет с передвижениями тела и движениями взгляда

2 декабря 2020

MoGaze: датасет с передвижениями тела и движениями взгляда

MoGaze — это датасет с передвижениями тела и движениями взгляда. Датасет собирали для обучения моделей предсказания действия людей. Такие модели можно использовать в роботизированных системах, тесно взаимодействующих с людьми. Ограничения…

Как аугментировать данные для задач компьютерного зрения

13 ноября 2020

Как аугментировать данные для задач компьютерного зрения

State-of-the-art архитектуры для задач компьютерного зрения, как правило, требуют значительного количества обучающих данных. Часто сбор данных и разметка являются ресурсоемким процессом, поэтому существуют методы для пополнения данных (аугментации) синтетическими примерами…

NYU Depth V2: сегментация объектов на видеозаписях интерьера

13 ноября 2020

NYU Depth V2: сегментация объектов на видеозаписях интерьера

NYU Depth V2 — это датасет для сегментации объектов на изображениях интерьера. Датасет состоит из видеопоследовательностей из разных сцен интерьера, которые были записаны в RGB и с помощью камер глубины…

RxR: датасет для навигации в пространстве с помощью описаний

27 октября 2020

RxR: датасет для навигации в пространстве с помощью описаний

Room-Across-Room (RxR) — это датасет для навигации в пространстве с помощью текстовых команд. Текстовые команды в RxR представлены на трех языках: английском, хинди и телугу. Кроме того, пути в датасете…

KILT: набор датасетов для тестирования NLP-моделей от FAIR

30 сентября 2020

KILT: набор датасетов для тестирования NLP-моделей от FAIR

KILT (Knowledge Intensive Language Tasks) — это унифицированный бенчмарк для обучения моделей, которые используют знания о мире для предсказаний. KILT объединяет в себе 11 публичных датасетов, которые охватывают 5 типов…

Dynabench: платформа для тестирования моделей от FAIR

30 сентября 2020

Dynabench: платформа для тестирования моделей от FAIR

Dynabench — это платформа для динамического сбора данных и тестирования моделей. Для сбора данных платформа задействует ресурсы ручной и автоматической разметки одновременно. Dynabench разрабатывали в FAIR. В Dynabench для оценки…

В Microsoft предложили меру близости для размеченных датасетов

29 сентября 2020

В Microsoft предложили меру близости для размеченных датасетов

OTDD — это подход для оценки близости или расстояния между датасетами для задач классификации. OTDD основывается на транспортной задаче (optimal transport), геометрическом методе для сравнения вероятностных распределений. Подход позволяет оценить…

LaSOT: масштабный датасет для моделей трекинга объектов

15 сентября 2020

LaSOT: масштабный датасет для моделей трекинга объектов

LaSOT — масштабный датасет для обучения и оценки моделей трекинга объектов. Датасет содержит 1.5 тысяч видеоклипов с объектами 85 разных классов. Всего в датасете более 3.87 миллионов кадров. Каждый клип…

Products-10K: датасет для распознавания продуктов

1 сентября 2020

Products-10K: датасет для распознавания продуктов

Products-10K — это широкомасштабный датасет для распознавания продуктов. Датасет состоит из изображений потребительских товаров. Данные собирали, чтобы улучшить качество моделей для распознавания товаров на складских полках. Проблемы прошлых датасетов Распознавание…

Google AI опубликовали датасет для тестирования моделей на устойчивость к шуму

31 августа 2020

Google AI опубликовали датасет для тестирования моделей на устойчивость к шуму

Исследователи из Google AI опубликовали первый датасет для тестирования устойчивости моделей к шумным данным. Кроме датасета, исследователи опубликовали модель классификации для шумных данных. MentorMix обходит state-of-the-art подходы для шумных данных…

WebDataset: библиотека для работы с большими датасетами

21 августа 2020

WebDataset: библиотека для работы с большими датасетами

WebDataset — это открытая библиотека для PyTorch, которая упрощает работу с крупными датасетами для машинного обучения. В WebDataset датасет представляется в формате POSIX tar архивов. Библиотека напрямую использует эти архивы…

В FAIR нашли пересечения данных в популярных QA датасетах

15 августа 2020

В FAIR нашли пересечения данных в популярных QA датасетах

Задача open domain вопросно-ответных систем предполагает, что модель умеет отвечать на новые вопросы с помощью знаний, выученных во время обучения. Кроме того, модель должна уметь генерализовать имеющиеся знания для ответа…

CelebA-Spoof: масштабный датасет для антиспуфинга

5 августа 2020

CelebA-Spoof: масштабный датасет для антиспуфинга

CelebA-Spoof — это датасет для антиспуфинга, который состоит из 625,537 изображений 10,177 людей. Антиспуфинг лица — это методы борьбы с обманом систем по распознаванию лиц. Датасет включает в себя 43…

COCO-WholeBody: первый датасет для оценки позы всего тела

4 августа 2020

COCO-WholeBody: первый датасет для оценки позы всего тела

COCO-WholeBody — это первый датасет для оценки позы всего тела. COCO-WholeBody является расширением датасета COCO 2017 с теми же разбивками на тренировочную и валидационную выборки, как в COCO. Для каждого…

WordCraft: среда для тестирования здравого смысла у RL-агентов

4 августа 2020

WordCraft: среда для тестирования здравого смысла у RL-агентов

WordCraft — это среда для тестирования общих знаний о мире у RL-агентов. Среда основывается на видеоигре Little Alchemy 2. Особенности WordCraft заключаются в ее легковесности и в том, что она…

REVISE: инструмент для оценки смещений в датасетах с изображениями

26 июля 2020

REVISE: инструмент для оценки смещений в датасетах с изображениями

REVISE — инструмент для оценки смещений в датасетах с изображениями. REVISE позволяет пользователю учесть неравномерность данных и оценить, насколько уместно использовать тот или иной датасет в рамках целевой задачи. Инструмент…