fbpx
  • XLS-R: модель FAIR распознавания речи на 128 языках

    FAIR выложила в открытый доступ код XLS-R — самообучающейся модели, выполняющей распознавание речи. XLS-R поддерживает 128 языков и превосходит в бенчмарках все предыдущие мультиязыковые модели.

    Цель, которую преследовали  разработчики XLS-R — создать единую модель для распознавания речи, ее перевода и идентификации языка сразу на большинстве самых популярных языков.

    Модель обучена более чем на 436 000 часах общедоступных записей речи, что почти в 10 раз больше, чем у предыдущей модели FAIR XLSR-53. Обучающие данные брались из разных источников, таких как записи судебных заседаний и аудиокниги, и включают 128 языков, что в два с половиной раза больше, чем XLSR-53.

    XLS-R содержит более 2-х миллиардов параметров. Разработчики FAIR утверждают, что увеличение параметров привело к значительному улучшению модели, поскольку большее количество параметров позволяет сформировать лучшее представление языка на основе обучающих данных. Также они обнаружили, что обучение модели сразу всем языкам повышает ее эффективность сильнее, чем при обучении одному языку.

    Модель доступна в Github.

    Подписаться
    Уведомить о
    guest
    0 Comments
    Межтекстовые Отзывы
    Посмотреть все комментарии