fbpx
  • FAIR представила самоуправляемую нейросеть для распознавания речи

    wav2vec-U – фреймворк для создания систем распознавания речи, не требующих обучения на аннотированных датасетах. Алгоритм, представленный FAIR, дает возможность распознавания речи на редких языках и диалектах.

    На сегодняшний день технология распознавания речи доступна лишь для небольшого числа языков. Это связано с тем, что обучение нейронных сетей, распознающих речь, требует тысяч часов расшифрованных аудиозаписей. Эти данные недоступны для большей части языков и диалектов. Wav2vec Unsupervised (wav2vec-U) – метод создания систем распознавания речи, которые вообще не требуют расшифрованных данных. Он обладает сравнимой эффективностью с нейросетями, которые обучались на 960 часах расшифрованной речи (рис. 1).

    Рис. 1. Сравнение эффективности wave2vec-U на основе бенчмарка Librispeech с нейросетями, обучаемыми на аннотированных датасетах.

    Алгоритм работает следующим образом. Нейросеть изучает речевые структуры с использованием самообучаемой модели FAIR wave2vec 2.0 и метода k-средних, которые сегментируют записи голоса на речевые единицы, которые в первом приближении соответствуют отдельным звукам (например, слово “cat” раскладывается на три звука: «/K/”, “/AE/” и “/T/».) Для распознавания отдельных слов используется генеративно-состязательная сеть, состоящая из генератора и дискриминатора. Генератор для каждого выделенного звукового сегмента предсказывает фонему, соответствующую звуку в языке. Он обучается, пытаясь обмануть дискриминатор, который оценивает, выглядят ли предсказанные последовательности фонем реалистичными. Сам дискриминатор также является нейронной сетью. Он обучается на входных данных генератора и разложенных заранее на фонемы текстов.

    Рис. 2. Частота ошибок wav2vec-U при распознавании речи на различных языках.

    Оценка эффективности wav2vec-U производилась на основе бенчмарка TIMIT, показавшего уменьшение количества ошибок на 57% по сравнению с предыдущей лучшей самообучаемой нейросетью. Развитие самообучаемых моделей распознавания речи важно для языков, для которых практически не существует аннотированных датасетов. wav2vec-U протестирован на таких языках, как суахили и татарский, которые в настоящее время не имеют высококачественных моделей распознавания речи (рис. 2).

    Подписаться
    Уведомить о
    guest
    0 Comments
    Межтекстовые Отзывы
    Посмотреть все комментарии