В Китае создали технологию распознавания беззвучной речи для смартфона

23 октября 2018

В Китае создали технологию распознавания беззвучной речи для смартфона

Китайские исследователи из Университета Цинхуа представили Lip-Interact — инструмент, который позволяет смартфону распознавать беззвучные команды по движениям губ. В будущем разработка позволит давать команды помощнику беззвучно, если этого требует ситуация,…

Китайские исследователи из Университета Цинхуа представили Lip-Interact — инструмент, который позволяет смартфону распознавать беззвучные команды по движениям губ. В будущем разработка позволит давать команды помощнику беззвучно, если этого требует ситуация, а также поможет глухонемым людям взаимодействовать с голосовыми помощниками.

Как работает Lip-Interact

Технология использует переднюю камеру смартфона чтобы идентифицировать лицо и распознать 20 точек, которые описывают движения губ пользователя и определяют степень открытия рта для определения начала и завершения команды. Инструмент распознаёт полученные команды с помощью свёрточной end-to-end модели. После того как произошло распознавание команды по движениям губ, модель проводит проверку аудиосигнала с микрофона, чтобы отличить Lip-Interact от обычного взаимодействия. Например, если человек разговаривает с кем-то, губы тоже двигаются, но приложение не станет распознавать эти движения как команду. Чтобы обучить нейронную сеть, исследователи использовали 48 335 образцов видео с движениями губ.

Результаты

На данный момент технология поддерживает распознавание 44 команд для доступа к функциям системного уровня (запуск приложений, изменение настроек, обработка всплывающих окон), а также операции в двух приложениях: WeChat и Notepad. Средняя точность распознавания составляет 95,5%. В дальнейшем разработчики надеются улучшить точность и полностью интегрировать Lip-Interact в смартфон — сейчас для работы технологии используется отдельная камера и компьютер для проведения вычислений.

В MIT разработали алгоритм, который распознает объекты по голосовому описанию

25 сентября 2018

В MIT разработали алгоритм, который распознает объекты по голосовому описанию

Учёные из Лаборатории информатики и искусственного интеллекта (CSAIL) в MIT представили нейросеть, которая распознаёт объекты на изображении, сопоставляя их с голосовым описанием. Исследователи считают, что разработка может улучшить технологии распознавания речи и перевод с…

Учёные из Лаборатории информатики и искусственного интеллекта (CSAIL) в MIT представили нейросеть, которая распознаёт объекты на изображении, сопоставляя их с голосовым описанием. Исследователи считают, что разработка может улучшить технологии распознавания речи и перевод с редких языков, которые не имеют достаточно данных для обучения моделей.

Сопоставление изображения и звука

Авторы используют две свёрточные нейросети (CNNs). Первая обрабатывает изображение, раскладывая его на сетку с пикселями, а вторая обрабатывает аудиопоток, создавая спектрограмму голоса. Аудиопоток разделяется на участки длиной 1 секунду, чтобы захватить слово или два. Затем нейросеть сопоставляет части спектрограммы с определённой ячейкой с пикселями и ищет соответствиеРазработчики обучили модель на 400000 изображений. В результате алгоритм научился сопоставлять несколько сотен слов с объектами.

Архитектура сети

По мнению авторов, ключевое достижение исследования в доказательстве, что аудиовизуальные соответствия могут быть выведены автоматически. «Алгоритмы теперь могут связывать сегменты изображения со звуковыми элементами, не требуя при этом текста в качестве посредника» — отмечает Флориан Меце, профессор Института языковых технологий Университета Карнеги-Меллона.

Недавно исследователи из MIT создали нейронную сеть, которая распознаёт объекты на изображениях и видео и генерирует их текстовое описание. Алгоритм способен определять транформации объектов на видео в реальном времени с точностью 95%.

Нейросеть DeepMind читает по губам лучше, чем другие алгоритмы

2 августа 2018
lip reading

Нейросеть DeepMind читает по губам лучше, чем другие алгоритмы

DeepMind создали алгоритм, который читает по губам с 59% точностью. Максимальный результат предыдущих разработок в этой области — 33%. Для обучения модели исследователи использовали 140 000 часов видео с YouTube. Специальная система обработала…

DeepMind создали алгоритм, который читает по губам с 59% точностью. Максимальный результат предыдущих разработок в этой области — 33%.

Для обучения модели исследователи использовали 140 000 часов видео с YouTube. Специальная система обработала видео, и разделила материал на короткие клипы так, чтобы были видны отчётливые движения рта при произнесении каждой фонемы. Разработчики получили 4000 часов отснятого материала, с 127 000  слов. Полученная база видеозаписей в семь раз больше, чем предыдущие наборы для подобного обучения.

Алгоритм обрабатывает видео несколько раз: нейросеть вырезает клипы с фонемами из неразмеченных видео; следующая программа предоставляет вероятность возможных фонем для каждого видеокадра; затем алгоритм берёт последовательности фонем и формирует последовательности слов. Кроме того, программа понимает, что фонема выглядит по-разному в зависимости от того, какие фонемы идут до и послеПосле обучения исследователи протестировали систему на 37-минутном видео. ИИ ошибочно определил 41% слов. Предыдущий алгоритм, который фокусируется на отдельных буквах, а не на фонемах, имел коэффициент ошибок 77%. Контрольная группа экспертов ошиблась в 86% случаев.

Разработка может помочь людям с нарушениями слуха и речи распознавать речь собеседника. Также технологию можно использовать  для анализа и распознавания речи на видео с камер наблюдения, и на архивных видео, снятых без звука.

Источник: Science