Нейросеть учится восстанавливать речь из мозговой активности

Нейросеть учится транслировать мозговую активность в понятную речь — Фото: www.technologyreview.com

Импланты в мозге, нейронные сети и синтезатор голоса превратили мозговую активность человека в членораздельную речь. Люди, которые услышали её, смогли распознать слова в 75% случаев.

Вокодер (кодировщик голоса) пока воспроизвел только цифры, но подобные разработки в дальнейшем приведут к созданию нейроинтерфейсов, которые смогут расшифровывать человеческие мысли и переводить их в речь. Люди с боковым амиотрофическим склерозом и люди, перенесшие инсульт, смогут поддерживать контакт с окружением, используя синтезаторы речи.

Алгоритм восстановления речи

Датчики в мозге снимают паттерны мозговой активности при произношении цифр. Глубокая нейронная сеть, реконструирующая признаки с шагом в 300 мс, состоит из двух частей: локально-связанная нейронная сеть (LCN) извлекает признаки из спектрограммы, полносвязная сеть (FCN) суммирует получившиеся признаки. Получившиеся признаки сжимаются с 516 до 256 с помощью автокодировщика, вокодер восстанавливает параметры из этого сжатого состояния с помощью декодера и воспроизводит звук. Параметры вокодера состоят из огибающей спектра, основной частоты (f0), структуры (voicing) и апериодичности.

Эксперимент

Когда люди говорят или слушают, у них в мозге возникают определенные паттерны активности. Исследователи Колумбийского университета поместили электроды в слуховую кору пациентов, которые лечатся от эпилепсии, чтобы отследить и записать эти сигналы.

Участники эксперимента слушали записи, в которых другие люди зачитывали цифры от 0 до 9. Сигналы их мозга были пропущены через вокодер. Синтезатор речи генерировал звуки, которые обрабатывались нейронной сетью, чтобы повысить четкость произношения. В результате технология, похожая на те, которые используются в Amazon Echo и Siri, воспроизводила нужную последовательность чисел. Прослушать получившуюся речь можно здесь.

Ограничения и будущие исследования

Работа опубликована в журнале Nature. На данный момент технология может воспроизводить только те слова, которые слышали выбранные пять пациентов и не работает ни для кого другого. Кроме того, это все ещё не собственная речь пациентов, а только то, что они прослушали.

В дальнейшем команда ученых планирует протестировать разработку на более сложных словах и предложениях. После этого они смогут начать эксперименты с отделами мозга, которые отвечают за синтез речи. Конечная цель — создать имплант, подобный тем, которые носят пациенты с эпилепсией, чтобы переводить мысли непосредственно в слова.