MLS: мультиязычный датасет для распознавания речи от FAIR

4 марта 2021

MLS: мультиязычный датасет для распознавания речи от FAIR

Facebook AI опубликовали мультиязычный датасет для обучения моделей распознавания речи. Multilingual LibriSpeech (MLS) содержит 50 тысяч часов аудио с речью людей на 8 языках: английском, немецком, испанском, итальянском, португальском и…

Twitter открыли архив твитов для научных исследователей

20 февраля 2021

Twitter открыли архив твитов для научных исследователей

Twitter открыли архив твитов для научных исследователей. Так компания поддерживает исследования онлайн-дискурса и трендов на платформе. Подробнее данные и доступ к ним Twitter запустили новый тип подключения к их API,…

DAF:re: публичный датасет для распознавания аниме персонажей

20 февраля 2021

DAF:re: публичный датасет для распознавания аниме персонажей

DAF:re — это публичный датасет для распознавания аниме персонажей. Датасет состоит из 500 тысяч изображений с 3000 классов объектов. Данные по классам распределены неравномерно. Кроме того, исследователи протестировали ResNet и…

TracIn: способ оценить влияние отдельных объектов в данных на предсказания

10 февраля 2021

TracIn: способ оценить влияние отдельных объектов в данных на предсказания

TracIn — это масштабируемый метод оценки влияния отдельных объектов в данных на предсказания. Идея TracIn заключается в том, что бы отслеживать процесс обучения модели, чтобы засекать изменения в предсказаниях при…

DNS: соревнование по фильтрации шума на аудиозаписи от Microsoft

31 января 2021

DNS: соревнование по фильтрации шума на аудиозаписи от Microsoft

Deep Noise Suppression (DNS) — это соревнование по фильтрации шума на аудиозаписи от Microsoft. Соревнование разработали для того, что бы спровоцировать исследования в области улучшения качества аудиозаписей через фильтрацию шума.…

Twitch Gamers: датасет для обучения представлений графов

30 января 2021

Twitch Gamers: датасет для обучения представлений графов

Twitch Gamers — это датасет для обучения представлений графовых данных. По результатам экспериментов, датасет подходит для оценки качества моделей обучения представлений. Создатели тестировали модели на задаче классификации узлов графа. Зачем…

Pile: открытый датасет для обучения языковых моделей на 825 гигабайт

28 января 2021

Pile: открытый датасет для обучения языковых моделей на 825 гигабайт

Pile — это датасет с разнообразными текстами на 825 гигабайт для обучения языковых моделей. Датасет состоит из 22 датасетов меньшего размера, которые объединили в один. Кроме датасета, создатели опубликовали бенчмарк…

HateXplain: датасет для интерпретируемого распознавания хейтспича

7 января 2021

HateXplain: датасет для интерпретируемого распознавания хейтспича

HateXplain — это датасет для обучения моделей распознавания оскорблений в тексте. Датасет собирали исследователи из Indian Institute of Technology и University of Hamburg. Датасет разрабатывали так, что бы учитывать метрики…

MeDAL: датасет для расшифровки медицинских аббревиатур

7 января 2021

MeDAL: датасет для расшифровки медицинских аббревиатур

MeDAL — это датасет для расшифровки медицинских аббревиатур. Датасет собирали для предобучения моделей обработки естественного языка для медицинского домена. Данные опубликовали на воркшопе ClinicalNLP на конференции EMNLP. По результатам экспериментов,…

RECCON: датасет для распознавания причины эмоций в тексте

6 января 2021

RECCON: датасет для распознавания причины эмоций в тексте

RECCON — это датасет для распознавания причины эмоций в тексте. Создатели предлагают две задачи, которые можно решать с помощью датасета: извлечение каузальных диапазонов в тексте и извлечения каузального следствия эмоции.…

Polars: быстрая альтернатива Pandas для обработки датасетов

19 декабря 2020

Polars: быстрая альтернатива Pandas для обработки датасетов

Polars — это открытая библиотека для обработки массивов данных на Python. По скорости работы библиотека обходит самый популярный инструмент для работы с данными, — Pandas. Кроме того, библиотека более эффективно…

Hypersim: датасет с разметкой изображений интерьеров от Apple

19 декабря 2020

Hypersim: датасет с разметкой изображений интерьеров от Apple

Hypersim — это датасет с фотореалистичными синтетическими изображениями интерьеров. Для каждого изображения доступны попиксельная разметка объектов и геометрия сцены. Датасет состоит из 77.4 тысяч изображений 461 сцены.  Проблема Для многих…

MoGaze: датасет с передвижениями тела и движениями взгляда

2 декабря 2020

MoGaze: датасет с передвижениями тела и движениями взгляда

MoGaze — это датасет с передвижениями тела и движениями взгляда. Датасет собирали для обучения моделей предсказания действия людей. Такие модели можно использовать в роботизированных системах, тесно взаимодействующих с людьми. Ограничения…

Как аугментировать данные для задач компьютерного зрения

13 ноября 2020

Как аугментировать данные для задач компьютерного зрения

State-of-the-art архитектуры для задач компьютерного зрения, как правило, требуют значительного количества обучающих данных. Часто сбор данных и разметка являются ресурсоемким процессом, поэтому существуют методы для пополнения данных (аугментации) синтетическими примерами…

NYU Depth V2: сегментация объектов на видеозаписях интерьера

13 ноября 2020

NYU Depth V2: сегментация объектов на видеозаписях интерьера

NYU Depth V2 — это датасет для сегментации объектов на изображениях интерьера. Датасет состоит из видеопоследовательностей из разных сцен интерьера, которые были записаны в RGB и с помощью камер глубины…

RxR: датасет для навигации в пространстве с помощью описаний

27 октября 2020

RxR: датасет для навигации в пространстве с помощью описаний

Room-Across-Room (RxR) — это датасет для навигации в пространстве с помощью текстовых команд. Текстовые команды в RxR представлены на трех языках: английском, хинди и телугу. Кроме того, пути в датасете…

KILT: набор датасетов для тестирования NLP-моделей от FAIR

30 сентября 2020

KILT: набор датасетов для тестирования NLP-моделей от FAIR

KILT (Knowledge Intensive Language Tasks) — это унифицированный бенчмарк для обучения моделей, которые используют знания о мире для предсказаний. KILT объединяет в себе 11 публичных датасетов, которые охватывают 5 типов…

Dynabench: платформа для тестирования моделей от FAIR

30 сентября 2020

Dynabench: платформа для тестирования моделей от FAIR

Dynabench — это платформа для динамического сбора данных и тестирования моделей. Для сбора данных платформа задействует ресурсы ручной и автоматической разметки одновременно. Dynabench разрабатывали в FAIR. В Dynabench для оценки…

В Microsoft предложили меру близости для размеченных датасетов

29 сентября 2020

В Microsoft предложили меру близости для размеченных датасетов

OTDD — это подход для оценки близости или расстояния между датасетами для задач классификации. OTDD основывается на транспортной задаче (optimal transport), геометрическом методе для сравнения вероятностных распределений. Подход позволяет оценить…

LaSOT: масштабный датасет для моделей трекинга объектов

15 сентября 2020

LaSOT: масштабный датасет для моделей трекинга объектов

LaSOT — масштабный датасет для обучения и оценки моделей трекинга объектов. Датасет содержит 1.5 тысяч видеоклипов с объектами 85 разных классов. Всего в датасете более 3.87 миллионов кадров. Каждый клип…

Products-10K: датасет для распознавания продуктов

1 сентября 2020

Products-10K: датасет для распознавания продуктов

Products-10K — это широкомасштабный датасет для распознавания продуктов. Датасет состоит из изображений потребительских товаров. Данные собирали, чтобы улучшить качество моделей для распознавания товаров на складских полках. Проблемы прошлых датасетов Распознавание…