ORBIT: датасет Microsoft изображений предметов быта

20 октября 2021

ORBIT: датасет Microsoft изображений предметов быта

ORBIT — датасет Microsoft для обучения моделей распознаванию предметов по нескольким изображениям. ORBIT включает от 1 до 10 видеозаписей 468 предметов из повседневной жизни. Обычно модели распознавания объектов обучаются на…

Fake It Till You Make It: датасет Microsoft синтетических изображений лиц

9 октября 2021

Fake It Till You Make It: датасет Microsoft синтетических изображений лиц

Microsoft представила датасет синтетических изображений лиц Fake It Till You Make It. Датасет нацелен на предварительное обучение алгоритмов распознавания лиц перед использованием в реальных сценариях. В биометрии уже несколько лет…

OpenRooms: управление объектами в 3D-сценах

15 сентября 2021

OpenRooms: управление объектами в 3D-сценах

OpenRooms — open-source датасет и набор инструментов для управления объектами, материалами, освещением и другими параметрами 3D-сцен интерьеров помещений. Датасет нацелен для использования в приложениях дополненной реальности и робототехники. OpenRooms использует…

CO3D: датасет с трехмерными реконструкциями объектов

5 сентября 2021

CO3D: датасет с трехмерными реконструкциями объектов

FAIR представил CO3D — датасет, содержащий точные трехмерные реконструкции 19 000 реальных объектов. Датасет предназначен для использования в задачах дополненной реальности и при разработке игр. Common Objects in 3D (CO3D)…

7 сайтов с общедоступными датасетами

2 сентября 2021

7 сайтов с общедоступными датасетами

В статье приводится обзор сайтов, содержащих десятки тысяч датасетов в открытом доступе. Датасеты, представленные на данных ресурсах, покрывают такие области, как здравоохранение, география, социология, безопасность, транспорт и многие другие. Google…

RADIATE: датасет дорожного трафика в плохую погоду

14 августа 2021

RADIATE: датасет дорожного трафика в плохую погоду

RADIATE содержит данные о движении 200 000 автомобилей и пешеходов, зарегистрированные с помощью радаров, камер, лидаров и GPS в неблагоприятных погодных условиях. Датасет нацелен на улучшение моделей, используемых при разработке…

Hypersim: синтетический датасет Apple с изображениями интерьеров

5 августа 2021

Hypersim: синтетический датасет Apple с изображениями интерьеров

Apple представила Hypersim — синтетический датасет фотореалистичных изображений помещений и интерьеров. Hypersim состоит из 77 400 изображений 461 сцен и предоставляет семантическую сегментацию. Основным ограничением синтетических датасетов является отсутствие в…

Open Buildings: датасет Google AI с аннотациями зданий

30 июля 2021

Open Buildings: датасет Google AI с аннотациями зданий

Google AI представила open-source датасет Open Buildings, содержащий информацию о местоположении и площади 500 миллионов зданий в Африке. Open Buildings позволит решать практические, научные и гуманитарные задачи, включая реагирование на…

Habitat 2.0: платформа FAIR для обучения роботов

6 июля 2021

Habitat 2.0: платформа FAIR для обучения роботов

FAIR представила Habitat 2.0 — платформу, которая позволяет обучать роботов ориентированию в виртуальных трехмерных пространствах и взаимодействию с объектами так же, как они взаимодействовали бы на реальной кухне, в столовой…

FLORES-101: датасет FAIR с переводами текстов на редкие языки

16 июня 2021

FLORES-101: датасет FAIR с переводами текстов на редкие языки

FLORES-101 — датасет FAIR для оценки и тестирования моделей многоязычного перевода. Датасет содержит 3000 предложений из Википедии, переведенных на 101 язык профессиональными переводчиками, и позволяет работать с 10100 направлениями перевода.…

FAIR1M: датасет спутниковых изображений высокого разрешения

9 июня 2021

FAIR1M: датасет спутниковых изображений высокого разрешения

Датасет FAIR1M, разработанный в Китайской академии наук, содержит более 15 000 спутниковых изображений с 1 000 000 подробных аннотаций, включая конкретные модели самолетов, типы кораблей и автомобилей. Изображения собраны китайскими…

ABCD: датасет для увеличения качества обслуживания клиентов

2 июня 2021

ABCD: датасет для увеличения качества обслуживания клиентов

Компания Asapp, занимающаяся улучшением коммуникации с клиентами на основе искусственного интеллекта, представила ABCD – датасет, предназначенный для разработки диалоговых систем. ABCD включает более 10 000 диалогов между клиентом и оператором,…

CodeNet: датасет IBM для нейросетей, генерирующих и анализирующих код

27 мая 2021

CodeNet: датасет IBM для нейросетей, генерирующих и анализирующих код

На конференции Think IBM представила Project CodeNet – крупнейший open-source датасет для обучения нейронных сетей программированию. Датасет состоит из 14 миллионов примеров кода, написанных на 55 языках программирования. Программисты тратят…

MLS: мультиязычный датасет для распознавания речи от FAIR

4 марта 2021

MLS: мультиязычный датасет для распознавания речи от FAIR

Facebook AI опубликовали мультиязычный датасет для обучения моделей распознавания речи. Multilingual LibriSpeech (MLS) содержит 50 тысяч часов аудио с речью людей на 8 языках: английском, немецком, испанском, итальянском, португальском и…

Twitter открыли архив твитов для научных исследователей

20 февраля 2021

Twitter открыли архив твитов для научных исследователей

Twitter открыли архив твитов для научных исследователей. Так компания поддерживает исследования онлайн-дискурса и трендов на платформе. Подробнее данные и доступ к ним Twitter запустили новый тип подключения к их API,…

DAF:re: публичный датасет для распознавания аниме персонажей

20 февраля 2021

DAF:re: публичный датасет для распознавания аниме персонажей

DAF:re — это публичный датасет для распознавания аниме персонажей. Датасет состоит из 500 тысяч изображений с 3000 классов объектов. Данные по классам распределены неравномерно. Кроме того, исследователи протестировали ResNet и…

TracIn: способ оценить влияние отдельных объектов в данных на предсказания

10 февраля 2021

TracIn: способ оценить влияние отдельных объектов в данных на предсказания

TracIn — это масштабируемый метод оценки влияния отдельных объектов в данных на предсказания. Идея TracIn заключается в том, что бы отслеживать процесс обучения модели, чтобы засекать изменения в предсказаниях при…

DNS: соревнование по фильтрации шума на аудиозаписи от Microsoft

31 января 2021

DNS: соревнование по фильтрации шума на аудиозаписи от Microsoft

Deep Noise Suppression (DNS) — это соревнование по фильтрации шума на аудиозаписи от Microsoft. Соревнование разработали для того, что бы спровоцировать исследования в области улучшения качества аудиозаписей через фильтрацию шума.…

Twitch Gamers: датасет для обучения представлений графов

30 января 2021

Twitch Gamers: датасет для обучения представлений графов

Twitch Gamers — это датасет для обучения представлений графовых данных. По результатам экспериментов, датасет подходит для оценки качества моделей обучения представлений. Создатели тестировали модели на задаче классификации узлов графа. Зачем…

Pile: открытый датасет для обучения языковых моделей на 825 гигабайт

28 января 2021

Pile: открытый датасет для обучения языковых моделей на 825 гигабайт

Pile — это датасет с разнообразными текстами на 825 гигабайт для обучения языковых моделей. Датасет состоит из 22 датасетов меньшего размера, которые объединили в один. Кроме датасета, создатели опубликовали бенчмарк…

HateXplain: датасет для интерпретируемого распознавания хейтспича

7 января 2021

HateXplain: датасет для интерпретируемого распознавания хейтспича

HateXplain — это датасет для обучения моделей распознавания оскорблений в тексте. Датасет собирали исследователи из Indian Institute of Technology и University of Hamburg. Датасет разрабатывали так, что бы учитывать метрики…