PARP: алгоритм прунинга моделей распознавания речи

PARP — наиболее эффективный среди аналогов метод обрезки больших моделей распознавания речи. PARP может применяться для автоматического распознавания речи на редких языках.

Технология распознавания речи стала более распространенной с ростом популярности виртуальных помощников, таких как Siri, однако многие из этих систем в силу своей сложности и дороговизны обучения хорошо работают только с наиболее распространенными из примерно 7000 языков мира. В связи с этим миллионы носителей менее распространенных языков не могут пользоваться голосовым переводом или умными устройствами.

Исследователи обратились к мощной модели распознавания речи Wave2vec 2.0, имеющей около 300 миллионов отдельных соединений и потому требующей больших вычислительных ресурсов для обучения определенному языку. На первом этапе метода PARP (Prune, Adjust and Re-Prune) Wave2vec 2.0 обрезается путем удаления малозначимых соединений. Затем полученная подсеть настраивается для определенного языка, а затем снова обрезается. На втором этапе удаленным соединениям разрешено восстанавливаться, если они оказываются важными для данного конкретного языка.

Несмотря на наличие тонкой настройки подсети для каждого языка, оказалось, что получающиеся подсети имеют большое перекрытие. Например, для французского и испанского языков они совпадают на 97%. Исследователи провели эксперименты с использованием 10 языков, включая итальянский, испанский, русский и китайский языки и получили схожие результаты.

Также исследователи сравнили PARP с другими распространенными методами обрезки и обнаружили, что он обеспечивает наилучшую точность распознавания.