Нейросеть DeepMind читает по губам лучше, чем другие алгоритмы

lip reading

DeepMind создали нейросеть, которая читает по губам с 59% точностью. Максимальный результат предыдущих разработок в этой области — 33%.

Для обучения модели исследователи использовали 140 000 часов видео с YouTube. Специальная система обработала видео, и разделила материал на короткие клипы так, чтобы были видны отчётливые движения рта при произнесении каждой фонемы. Разработчики получили 4000 часов отснятого материала, с 127 000  слов. Полученная база видеозаписей в семь раз больше, чем предыдущие наборы для подобного обучения.

Алгоритм обрабатывает видео несколько раз: нейросеть вырезает клипы с фонемами из неразмеченных видео; следующая программа предоставляет вероятность возможных фонем для каждого видеокадра; затем алгоритм берёт последовательности фонем и формирует последовательности слов. Кроме того, программа понимает, что фонема выглядит по-разному в зависимости от того, какие фонемы идут до и послеПосле обучения исследователи протестировали систему на 37-минутном видео. ИИ ошибочно определил 41% слов. Предыдущий алгоритм, который фокусируется на отдельных буквах, а не на фонемах, имел коэффициент ошибок 77%. Контрольная группа экспертов ошиблась в 86% случаев.

Разработка может помочь людям с нарушениями слуха и речи распознавать речь собеседника. Также технологию можно использовать  для анализа и распознавания речи на видео с камер наблюдения, и на архивных видео, снятых без звука.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt