Intel представила датасеты People’s Speech и MSWC, нацеленные на распознавание и транскрибирование разговорной речи. Оба датасета являются одними из крупнейших в своем классе и включают аудиозаписи на 59 языках.
Датасет People’s Speech фокусируется на задачах автоматического распознавания речи, а MSWC — на поиске ключевых слов. Оба проекта были запущены в 2018 году с целью выявления и компиляции 50 наиболее используемых языков в мире в единый набор данных. Для сбора датасетов Intel сотрудничала с Alibaba, Oracle, Google, Baidu и другими компаниями.
People’s Speech включает более 87 000 часов устной речи. В настоящее время это один из крупнейших датасетов с английским языком, лицензированный для академического и коммерческого использования.
MSWC содержит аудиозаписи более 300 тысяч ключевых слов на десятках языков. Датасет охватывает языки, на которых говорят более 5 миллиардов человек.
Оба датасета станут доступными для скачивания в ближайшее время.