Как обучают нейросетевые модели для распознавания речи

Разработка разговорных систем состоит из трех шагов: обработка и траскрибирование аудиозаписи, понимание поставленного вопроса и генерация ответа в виде текста. Первый шаг достигается с помощью модели для распознавания речи. На втором шаге используются модели из обработки естественного языка. За выполнение третьего шага отвечает модель для генерации речи из текста. Исследователи из Nvidia описали пайплайн обучения нейросети для распознавания речи. Для решения этой задачи в Nvidia используют NeMo ASR

Оптимизация каждого из шагов разработки разговорных агентов требует обучения одной или более моделей. С этой проблемой в Nvidia борются с помощью инструмента для обучения нейросетей NeMo. NeMo основан на PyTorch и упрощает процесс тестирования и внедрения нейросетей.

Пайплайн обучения модели для распознавания речи

Автоматическое распознавание речи (ASR) состоит из таких подзадач, как сегментация речи, акустическое моделирование и языковое моделирование. ASR модель принимает на вход аудиозапись и выдает текстовое содержание аудиозаписи. Connectionist Temporal Classification (CTC) позволяет обучать AST модель end-to-end. 

Процесс обучения включает в себя:

  • Извлечение признаков: нормализация аудиозаписи, использование окон, спектрограммы;
  • Акустическое моделирование: нейросеть на основе CTC для временной единицы аудиозаписи предсказывает вероятностное распределение букв;
  • Декодирование: жадный отбор букв с максимальной вероятностью или языковое моделирование

Языковое моделирование исправляет ошибки акустической модели и делает предсказанный текст более реалистичным.

Визуализация структурных компонентов ASR модели
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt