fbpx
  • Российский Speech-to-text датасет (STT/ASR)

    Российский Speech-to-text датасет

    Группа российских разработчиков выпустила свободный датасет speech-to-text на русском языке, содержащий более 4000 тысяч часов записей с голосом для исследователей и разработчиков приложений с распознаванием речи. В ближайшее время создатели датасета планируют добавить еще 1500 часов речи, а в будущем увеличить его объем до 10 или даже 20 тысяч часов.

    Содержимое датасета
    Содержимое датасета

    Данные в датасете разнообразны, их качество варьируется от довольно хорошего до почти идеального. Датасет нацелен на бизнес-приложения, поэтому выбирались соответствующие типы данных. Так, часть данных автоматически сгенерирована (ASR). Данные выбирались не только чистые, чтобы модель могла обучаться быть устойчивой к шумам и лучше работать в реальных условиях. Датасет выпущен под лицензией cc by-nc. Для использования в коммерческих целях потребуется связаться с создателями. Сами разработчики рассчитывают, что этот датасет станет подобным датасету Imagenet в области распознавания изображений по полноте и доступности в русскоязычном сегменте.

    Особенности датасета:

    • Все ссылки являются публичными;
    • Датасет размещен в AWS-совместимом хранилище с CDN — скорость загрузки будет хорошей;
    • Большая часть данных проверена и записана в одном формате;
    • Сбор данных в дисковой БД, оптимизированной для работы даже на жестких дисках (разработчики еще не тестировали ее).
    • Файл meta data;
    • Некоторые простые изменяемые фрагменты кода для более легкого запуска;

    Более подробно о мотивации авторов и особенностях датасета информация в оригинальной статье.