DeepMind создали нейросеть, которая читает по губам с 59% точностью. Максимальный результат предыдущих разработок в этой области — 33%.
Для обучения модели исследователи использовали 140 000 часов видео с YouTube. Специальная система обработала видео, и разделила материал на короткие клипы так, чтобы были видны отчётливые движения рта при произнесении каждой фонемы. Разработчики получили 4000 часов отснятого материала, с 127 000 слов. Полученная база видеозаписей в семь раз больше, чем предыдущие наборы для подобного обучения.
Алгоритм обрабатывает видео несколько раз: нейросеть вырезает клипы с фонемами из неразмеченных видео; следующая программа предоставляет вероятность возможных фонем для каждого видеокадра; затем алгоритм берёт последовательности фонем и формирует последовательности слов. Кроме того, программа понимает, что фонема выглядит по-разному в зависимости от того, какие фонемы идут до и после. После обучения исследователи протестировали систему на 37-минутном видео. ИИ ошибочно определил 41% слов. Предыдущий алгоритм, который фокусируется на отдельных буквах, а не на фонемах, имел коэффициент ошибок 77%. Контрольная группа экспертов ошиблась в 86% случаев.
Разработка может помочь людям с нарушениями слуха и речи распознавать речь собеседника. Также технологию можно использовать для анализа и распознавания речи на видео с камер наблюдения, и на архивных видео, снятых без звука.