Mozilla опубликовала крупнейший набор данных голосов на 18 языках

Mozilla опубликовала открытый датасет Common Voice, который содержит 1400 часов записей человеческой речи на 18 языках, включая английский, французский, немецкий и редкие языки — валлийский, кабильский и другие. Это самый большой доступный мультиязычный набор голосовых данных. Русский язык пока не представлен, но в дальнейшем разработчики собираются расширять датасет.

Компания использует уже использует часть записей из набора данных для разработки собственных голосовых продуктов. Механизм распознавания речи DeepSpeech, обучаясь на данных Common Voice, транскрибирует лекции, телефонные разговоры, и телевизионные программы почти с человеческой точностью в реальном времени. Mozilla утверждает, что конечная цель заключается в том, чтобы предоставить открытые обучающие данные высокого качества разработчикам голосовых сервисов и приложений и улучшить технологии для распознавания разных языков и акцентов.

Датасет Common Voice

Предыдущая версия Common Voice содержала 500 часов записей от 20 000 добровольцев только на английском языке. Новая содержит 1400 часов записей человеческой речи на 18 языках. Набор данных Common Voice дополняет движок распознавания голоса с открытым исходным кодом Mozilla Deep Speech.

Каждая запись в наборе данных состоит из MP3-файла и соответствующего текстового файла. К большей части записей доступны демографические метаданные — возраст, пол и акцент. Они могут помочь в точном обучении моделей распознавания речи.

Можно принять участие в расширении датасета, отправив свой голос через сайт или приложение. Mozilla нацелена создать открытый набор данных с записями на 70 языках. Подробная информация о проекте Common Voice и датасете доступна в блоге разработчиков. Загрузить датасет можно здесь.