LAION-5B: крупнейший датасет пар изображение-текст

28 мая 2022

LAION-5B: крупнейший датасет пар изображение-текст

LAION-5B — датасет пар изображение-текст, собранных в Интернете. LAION-5B содержит более 5 миллиардов пар, что делает его крупнейшим среди аналогичных датасетов. AION-5B был собран путем парсинга датасета Common Crawl для…

MASSIVE: датасет Amazon для многоязычного обучения моделей

29 апреля 2022

MASSIVE: датасет Amazon для многоязычного обучения моделей

Amazon представил open-source датасет MASSIVE с переводами текстов на 51 язык. Датасет нацелен на создание моделей обработки естественного языка, которые могут быть легко обобщены на новые языки. В основе MASSIVE…

SORDI: датасет синтетических изображений производств

20 апреля 2022

SORDI: датасет синтетических изображений производств

BMW Group представила SORDI – крупнейший open-source датасет размеченных фотореалистичных изображений заводов и других производств. SORDI содержит более 800 000 изображений в 80 категориях и нацелен на развитие методов машинного…

Датасеты для генерации и анализа музыки

27 февраля 2022

Датасеты для генерации и анализа музыки

В статье приводится обзор датасетов с музыкальными произведениями. Датасеты разработаны для обучения моделей генерации, распознавания и анализа музыки. NSynth Крупнейший датасет, состоящий из 305 979 музыкальных нот, включая высоту звука,…

Intel анонсировала крупнейшие датасеты для распознавания речи

9 декабря 2021

Intel анонсировала крупнейшие датасеты для распознавания речи

Intel представила датасеты People’s Speech и MSWC, нацеленные на распознавание и транскрибирование разговорной речи. Оба датасета являются одними из крупнейших в своем классе и включают аудиозаписи на 59 языках. Датасет People’s Speech…

Visual Genome: датасет размеченных изображений

25 ноября 2021

Visual Genome: датасет размеченных изображений

Visual Genome — датасет с более чем 100 000 изображений и описаний всех объектов на них. Датасет нацелен на использование в задачах поиска и распознавания объектов. Visual Genome является самым…

Commonsense-Dialogues: датасет Amazon повседневных диалогов

12 ноября 2021

Commonsense-Dialogues: датасет Amazon повседневных диалогов

Commonsense-Dialogues — датасет Amazon, содержащий 11 000 диалогов из повседневной жизни. Датасет нацелен на обучение моделей понимать скрытые смыслы реплик. На сегодняшний день ИИ-ассистенты плохо справляются с распознаванием эмоций и…

GoEmotions: датасет Google AI для анализа тональности текста

31 октября 2021

GoEmotions: датасет Google AI для анализа тональности текста

Датасет Google AI GoEmotions состоит из комментариев пользователей Reddit с метками их эмоциональной окраски. GoEmotions предназначен для обучения нейросетей выполнению глубокого анализа тональности текстов. Большинство существующих датасетов для классификации эмоций…

ORBIT: датасет Microsoft изображений предметов быта

20 октября 2021

ORBIT: датасет Microsoft изображений предметов быта

ORBIT — датасет Microsoft для обучения моделей распознаванию предметов по нескольким изображениям. ORBIT включает от 1 до 10 видеозаписей 468 предметов из повседневной жизни. Обычно модели распознавания объектов обучаются на…

Fake It Till You Make It: датасет Microsoft синтетических изображений лиц

9 октября 2021

Fake It Till You Make It: датасет Microsoft синтетических изображений лиц

Microsoft представила датасет синтетических изображений лиц Fake It Till You Make It. Датасет нацелен на предварительное обучение алгоритмов распознавания лиц перед использованием в реальных сценариях. В биометрии уже несколько лет…

OpenRooms: управление объектами в 3D-сценах

15 сентября 2021

OpenRooms: управление объектами в 3D-сценах

OpenRooms — open-source датасет и набор инструментов для управления объектами, материалами, освещением и другими параметрами 3D-сцен интерьеров помещений. Датасет нацелен для использования в приложениях дополненной реальности и робототехники. OpenRooms использует…

7 сайтов с общедоступными датасетами

2 сентября 2021

7 сайтов с общедоступными датасетами

В статье приводится обзор сайтов, содержащих десятки тысяч датасетов в открытом доступе. Датасеты, представленные на данных ресурсах, покрывают такие области, как здравоохранение, география, социология, безопасность, транспорт и многие другие. Google…

RADIATE: датасет дорожного трафика в плохую погоду

14 августа 2021

RADIATE: датасет дорожного трафика в плохую погоду

RADIATE содержит данные о движении 200 000 автомобилей и пешеходов, зарегистрированные с помощью радаров, камер, лидаров и GPS в неблагоприятных погодных условиях. Датасет нацелен на улучшение моделей, используемых при разработке…

Hypersim: синтетический датасет Apple с изображениями интерьеров

5 августа 2021

Hypersim: синтетический датасет Apple с изображениями интерьеров

Apple представила Hypersim — синтетический датасет фотореалистичных изображений помещений и интерьеров. Hypersim состоит из 77 400 изображений 461 сцен и предоставляет семантическую сегментацию. Основным ограничением синтетических датасетов является отсутствие в…

Open Buildings: датасет Google AI с аннотациями зданий

30 июля 2021

Open Buildings: датасет Google AI с аннотациями зданий

Google AI представила open-source датасет Open Buildings, содержащий информацию о местоположении и площади 500 миллионов зданий в Африке. Open Buildings позволит решать практические, научные и гуманитарные задачи, включая реагирование на…

ABCD: датасет для увеличения качества обслуживания клиентов

2 июня 2021

ABCD: датасет для увеличения качества обслуживания клиентов

Компания Asapp, занимающаяся улучшением коммуникации с клиентами на основе искусственного интеллекта, представила ABCD – датасет, предназначенный для разработки диалоговых систем. ABCD включает более 10 000 диалогов между клиентом и оператором,…

CodeNet: датасет IBM для нейросетей, генерирующих и анализирующих код

27 мая 2021

CodeNet: датасет IBM для нейросетей, генерирующих и анализирующих код

На конференции Think IBM представила Project CodeNet – крупнейший open-source датасет для обучения нейронных сетей программированию. Датасет состоит из 14 миллионов примеров кода, написанных на 55 языках программирования. Программисты тратят…

MLS: мультиязычный датасет для распознавания речи от FAIR

4 марта 2021

MLS: мультиязычный датасет для распознавания речи от FAIR

Facebook AI опубликовали мультиязычный датасет для обучения моделей распознавания речи. Multilingual LibriSpeech (MLS) содержит 50 тысяч часов аудио с речью людей на 8 языках: английском, немецком, испанском, итальянском, португальском и…

Twitter открыли архив твитов для научных исследователей

20 февраля 2021

Twitter открыли архив твитов для научных исследователей

Twitter открыли архив твитов для научных исследователей. Так компания поддерживает исследования онлайн-дискурса и трендов на платформе. Подробнее данные и доступ к ним Twitter запустили новый тип подключения к их API,…

DAF:re: публичный датасет для распознавания аниме персонажей

20 февраля 2021

DAF:re: публичный датасет для распознавания аниме персонажей

DAF:re — это публичный датасет для распознавания аниме персонажей. Датасет состоит из 500 тысяч изображений с 3000 классов объектов. Данные по классам распределены неравномерно. Кроме того, исследователи протестировали ResNet и…

TracIn: способ оценить влияние отдельных объектов в данных на предсказания

10 февраля 2021

TracIn: способ оценить влияние отдельных объектов в данных на предсказания

TracIn — это масштабируемый метод оценки влияния отдельных объектов в данных на предсказания. Идея TracIn заключается в том, что бы отслеживать процесс обучения модели, чтобы засекать изменения в предсказаниях при…