fbpx
  • AV-HuBERT: распознавание речи по губам

    Meta представила AV—HuBERT — фреймворк распознавания речи одновременно по ее звуку и движению губ говорящего. Точность распознавания AV-Hubert на 75% выше, чем у state-of-the-art моделей, обученных на таком же количестве транскрипций.

    Люди воспринимают речь как слушая ее, так и наблюдая за движением губ говорящих. Исследования показывают, что движение губ даже более важно при изучении языка, чем звук речи. Системы распознавания речи, однако, работают только с аудиоматериалом. Для их обучения требуются объемные датасеты, обычно включающие десятки тысяч часов аудиозаписей.

    AV-Hubert превосходит прежнюю лучшую систему распознавания аудиовизуальной речи, используя одну десятую часть помеченных данных, что делает ее потенциально полезной для языков с небольшим количеством аудиоданных. В Meta считают, что в будущем фреймворки искусственного интеллекта, такие как AV-Hubert, могут быть использованы для повышения эффективности распознавания речи в условиях высокого шума — например, на вечеринке или на оживленной улице. В частности, смартфоны, очки дополненной реальности и другие устройства с камерой помогут людям общаться в таких ситуациях.

    Meta — не первая компания, которая применила искусственный интеллект к задаче чтения по губам. В 2016 году исследователи из Оксфордского университета создали систему, которая в некоторых тестах была почти в два раза точнее людей и могла обрабатывать видео в режиме, близком к реальному времени. В 2017 году принадлежащая Alphabet компания DeepMind обучила систему на тысячах часов телешоу переводу в 5 раз точнее экспертов чтения по губам. Эти модели, однако, ограничены в диапазоне словарного запаса, который они могут распознать.

    AV-HuBERT является мультимодальной моделью — она комбинирует движение губ со звуковой информацией и регистрирует взаимосвязи между этими данными. Модель была обучена на 2442 часах англоязычных видеороликов знаменитостей, загруженных на YouTube.

    Подписаться
    Уведомить о
    guest
    0 Comments
    Межтекстовые Отзывы
    Посмотреть все комментарии