Google VRDU: обучение моделей пониманию содержания документов

27 августа 2023
google vrdu 2

Google VRDU: обучение моделей пониманию содержания документов

Google опубликовала в открытом доступе VRDU – датасет и бенчмарк для обучения моделей пониманию содержания документов. VRDU нацелен на ускорение развития моделей, обрабатывающих сложные документы для повышения эффективности бизнес-процессов и…

Prithvi: модель и датасет NASA для анализа экологических явлений

6 августа 2023
prithvi

Prithvi: модель и датасет NASA для анализа экологических явлений

NASA и IBM представили open-source модель Prithvi, которая позволит ученым отслеживать последствия изменения климата, осуществлять мониторинг вырубки лесов, прогнозировать урожайность сельскохозяйственных культур и анализировать выбросы парниковых газов. В рамках миссии…

Stability AI опубликовала датасет и функцию оценки Pickscore для обучения генеративных моделей

6 июня 2023
pickscore оценка изображений

Stability AI опубликовала датасет и функцию оценки Pickscore для обучения генеративных моделей

Pick-a-Pic — это датасет для обучения моделей генерации изображения из текста, содержащий более 500 000 изображений и оценки пользователей для каждого примера. Исследователи StabilityAI и Тель-Авивского университета опубликовали датасет Pick-a-Pic…

Reactor: генерация сцен по текстовому описанию

19 мая 2023
reactor parallel domains

Reactor: генерация сцен по текстовому описанию

Платформа Parallel Domain объявила о запуске Reactor – инструмента для работы с синтетическими данными, нацеленного на обучение беспилотных автомобилей и роботов. Интегрированная в Reactor языковая модель позволяет генерировать или модифицировать…

RedPajama: open-source датасет для обучения больших языковых моделей

20 апреля 2023

RedPajama: open-source датасет для обучения больших языковых моделей

В открытом доступе опубликован RedPajama – датасет текстов, содержащий более 1,2 трлн токенов. Датасет собран коллаборацией из нескольких университетов и организаций для создания общедоступных больших языковых моделей. Наиболее эффективные на…

LAION-5B: крупнейший датасет пар изображение-текст

28 мая 2022
LAION-5B

LAION-5B: крупнейший датасет пар изображение-текст

Датасет LAION-5B — это один из крупнейших датасетов для машинного обучения в задачах компьютерного зрения. Он содержит более 5 миллиардов изображений и покрывает более 50 тысяч категорий. Датасет может быть…

MASSIVE: датасет Amazon для многоязычного обучения моделей

29 апреля 2022

MASSIVE: датасет Amazon для многоязычного обучения моделей

Amazon представил open-source датасет MASSIVE с переводами текстов на 51 язык. Датасет нацелен на создание моделей обработки естественного языка, которые могут быть легко обобщены на новые языки. В основе датасета…

SORDI: датасет синтетических изображений производств

20 апреля 2022

SORDI: датасет синтетических изображений производств

BMW Group представила SORDI – крупнейший open-source датасет размеченных фотореалистичных изображений заводов и других производств. SORDI содержит более 800 000 изображений в 80 категориях и нацелен на развитие методов машинного…

Датасеты для генерации и анализа музыки

27 февраля 2022

Датасеты для генерации и анализа музыки

В статье приводится обзор датасетов с музыкальными произведениями. Датасеты разработаны для обучения моделей генерации, распознавания и анализа музыки. NSynth Крупнейший датасет, состоящий из 305 979 музыкальных нот, включая высоту звука,…

Intel анонсировала крупнейшие датасеты для распознавания речи

9 декабря 2021

Intel анонсировала крупнейшие датасеты для распознавания речи

Intel представила датасеты People’s Speech и MSWC, нацеленные на распознавание и транскрибирование разговорной речи. Оба датасета являются одними из крупнейших в своем классе и включают аудиозаписи на 59 языках. Датасет People’s Speech…

Visual Genome: датасет размеченных изображений

25 ноября 2021

Visual Genome: датасет размеченных изображений

Visual Genome — датасет с более чем 100 000 изображений и описаний всех объектов на них. Датасет нацелен на использование в задачах поиска и распознавания объектов. Visual Genome является самым…

Commonsense-Dialogues: датасет диалогов из Amazon Mechanical Turk

12 ноября 2021
датасет диалогов Amazon Mechanical Turk

Commonsense-Dialogues: датасет диалогов из Amazon Mechanical Turk

Commonsense-Dialogues — датасет диалогов Amazon, содержащий 11 000 примеров общения из повседневной жизни. Датасет диал нацелен на обучение моделей понимать скрытые смыслы реплик. На сегодняшний день ИИ-ассистенты плохо справляются с…

GoEmotions: датасет Google AI для анализа тональности текста

31 октября 2021

GoEmotions: датасет Google AI для анализа тональности текста

Датасет Google AI GoEmotions состоит из комментариев пользователей Reddit с метками их эмоциональной окраски. GoEmotions предназначен для обучения нейросетей выполнению глубокого анализа тональности текстов. Большинство существующих датасетов для классификации эмоций…

ORBIT: датасет Microsoft изображений предметов быта

20 октября 2021

ORBIT: датасет Microsoft изображений предметов быта

ORBIT — датасет Microsoft для обучения моделей распознаванию предметов по нескольким изображениям. ORBIT включает от 1 до 10 видеозаписей 468 предметов из повседневной жизни. Обычно модели распознавания объектов обучаются на…

Fake It Till You Make It: датасет Microsoft синтетических изображений лиц

9 октября 2021

Fake It Till You Make It: датасет Microsoft синтетических изображений лиц

Microsoft представила датасет синтетических изображений лиц Fake It Till You Make It. Датасет нацелен на предварительное обучение алгоритмов распознавания лиц перед использованием в реальных сценариях. В биометрии уже несколько лет…

OpenRooms: управление объектами в 3D-сценах

15 сентября 2021

OpenRooms: управление объектами в 3D-сценах

OpenRooms — open-source датасет и набор инструментов для управления объектами, материалами, освещением и другими параметрами 3D-сцен интерьеров помещений. Датасет нацелен для использования в приложениях дополненной реальности и робототехники. OpenRooms использует…

7 сайтов датасетами в открытом доступе

2 сентября 2021
Public datasets open-access

7 сайтов датасетами в открытом доступе

В статье приводится обзор сайтов, содержащих десятки тысяч датасетов в открытом доступе. Датасеты, представленные на данных ресурсах, покрывают такие области, как здравоохранение, география, социология, безопасность, транспорт и многие другие. Google…

RADIATE: датасет дорожного трафика в плохую погоду

14 августа 2021

RADIATE: датасет дорожного трафика в плохую погоду

RADIATE содержит данные о движении 200 000 автомобилей и пешеходов, зарегистрированные с помощью радаров, камер, лидаров и GPS в неблагоприятных погодных условиях. Датасет нацелен на улучшение моделей, используемых при разработке…

Hypersim: синтетический датасет Apple с изображениями интерьеров

5 августа 2021

Hypersim: синтетический датасет Apple с изображениями интерьеров

Apple представила Hypersim — синтетический датасет фотореалистичных изображений помещений и интерьеров. Hypersim состоит из 77 400 изображений 461 сцен и предоставляет семантическую сегментацию. Основным ограничением синтетических датасетов является отсутствие в…

Open Buildings: датасет Google AI с аннотациями зданий

30 июля 2021

Open Buildings: датасет Google AI с аннотациями зданий

Google AI представила open-source датасет Open Buildings, содержащий информацию о местоположении и площади 500 миллионов зданий в Африке. Open Buildings позволит решать практические, научные и гуманитарные задачи, включая реагирование на…

ABCD: датасет для улучшения коммуникации с клиентами

2 июня 2021

ABCD: датасет для улучшения коммуникации с клиентами

Компания Asapp, занимающаяся улучшением коммуникации с клиентами на основе искусственного интеллекта, представила ABCD – датасет, предназначенный для разработки диалоговых систем. ABCD включает более 10 000 диалогов между клиентом и оператором,…