Intel анонсировала крупнейшие датасеты для распознавания речи

Intel представила датасеты People’s Speech и MSWC, нацеленные на распознавание и транскрибирование разговорной речи. Оба датасета являются одними из крупнейших в своем классе и включают аудиозаписи на 59 языках.

Датасет People’s Speech фокусируется на задачах автоматического распознавания речи, а MSWC — на поиске ключевых слов. Оба проекта были запущены в 2018 году с целью выявления и компиляции 50 наиболее используемых языков в мире в единый набор данных. Для сбора датасетов Intel сотрудничала с Alibaba, Oracle, Google, Baidu и другими компаниями.

People’s Speech включает более 87 000 часов устной речи. В настоящее время это один из крупнейших датасетов с английским языком, лицензированный для академического и коммерческого использования.

MSWC содержит аудиозаписи более 300 тысяч ключевых слов на десятках языков. Датасет охватывает языки, на которых говорят более 5 миллиардов человек.

Оба датасета станут доступными для скачивания в ближайшее время.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt