• Intel анонсировала крупнейшие датасеты для распознавания речи

    Intel представила датасеты People’s Speech и MSWC, нацеленные на распознавание и транскрибирование разговорной речи. Оба датасета являются одними из крупнейших в своем классе и включают аудиозаписи на 59 языках.

    Датасет People’s Speech фокусируется на задачах автоматического распознавания речи, а MSWC — на поиске ключевых слов. Оба проекта были запущены в 2018 году с целью выявления и компиляции 50 наиболее используемых языков в мире в единый набор данных. Для сбора датасетов Intel сотрудничала с Alibaba, Oracle, Google, Baidu и другими компаниями.

    People’s Speech включает более 87 000 часов устной речи. В настоящее время это один из крупнейших датасетов с английским языком, лицензированный для академического и коммерческого использования.

    MSWC содержит аудиозаписи более 300 тысяч ключевых слов на десятках языков. Датасет охватывает языки, на которых говорят более 5 миллиардов человек.

    Оба датасета станут доступными для скачивания в ближайшее время.

    Подписаться
    Уведомить о
    guest
    0 Comments
    Межтекстовые Отзывы
    Посмотреть все комментарии