fbpx
  • SpecAugment: алгоритм аугментации аудиоданных от Google AI

    audio google

    Исследователи из Google AI разработали алгоритм SpecAugment для понижения размерности аудиоданных. Использование SpecAugment при обучении нейросети помогает побить State-of-the-Art результаты по автоматическому распознаванию речи.

    Описание проблемы

    Автоматическое распознавание речи — это seq2seq задача, которая заключается в том, чтобы взять аудиозапись и перевести ее в текст. В последнее время использование глубокого обучения для решения этой задачи стало стандратом в индустрии. Это позволило внедрять распознавание речи в продукты (например, Google Assistant и Google Home).

    Одной из проблем в обучении моделей распознавания речи заключается в количестве параметров моделей. Из-за этого модели имеют свойство переобучаться и их генерализирующая способность снижается. Исследователи представили решение проблемы снижения количества параметров модели.

    Обычно в нейросеть на вход поступает визуальное представление аудио волн в формате спектограммы. Размерность же понижается на этапе, пока данные находятся в формате волн, до того как их конвертируют в спектограммы.

    Как работает SpecAugment

    Исследователи в Google AI предлагают снижать размерность на этапе, когда данные уже преобразованы в спектограмму. Аугментация данных происходит отдельно от обучения нейросети и единожды, поэтому этот подход не влияет значительно на время обучения модели.

    Конвертация аудио из формата волны в спектограмму (визуальное представление аудио)

    SpecAugment модифицирует спектограмму через искажение изображения, скрывая блоки параметров на изображении. Благодаря подходу, нейросеть становится более устойчивой к частичной потере данных в входных данных.

    Аугментация данных (фиолетовым обозначены параметры, которые были скрыты)

    Результаты экспериментов

    Чтобы проверить работу подхода, исследователи взяли датасет LibriSpeech, три LAS нейросети, которые стандратно используют в распознавании речи, и сравнили точность нейросетей с использованием SpecAugment и без. Можно заметить, что использование SpecAugment позволяет снизить ошибку модели без дополнительной оптимизации самой нейросети.

    Сравнение процента ошибки (WER) у модели с использованием SpecAugment (отмечено синим) и без (желтым)

    Исследователям удалось превзойти SOTA результаты для задач LibriSpeech 960h и Switchboard 300h. Они сделали это с помощью SpecAugment, увеличив размер нейросети и увеличив время обучения модели.

    Сравнение работы модели и SOTA на датасетах LibriSpeech 960h и Switchboard 300h

    Работа исследователей подчеркивает важность исследований, которые фокусировались бы не на оптимальных архитектурах нейросетей, а на оптимальных способах их обучения.