fbpx
  • Нейросеть учится восстанавливать речь из мозговой активности

    Нейросеть учится транслировать мозговую активность в понятную речь
    Фото: www.technologyreview.com

    Импланты в мозге, нейронные сети и синтезатор голоса превратили мозговую активность человека в членораздельную речь. Люди, которые услышали её, смогли распознать слова в 75% случаев.

    Вокодер (кодировщик голоса) пока воспроизвел только цифры, но подобные разработки в дальнейшем приведут к созданию нейроинтерфейсов, которые смогут расшифровывать человеческие мысли и переводить их в речь. Люди с боковым амиотрофическим склерозом и люди, перенесшие инсульт, смогут поддерживать контакт с окружением, используя синтезаторы речи.

    Алгоритм восстановления речи

    Схема алгоритма восстановления речи
    Схема алгоритма восстановления речи

    Датчики в мозге снимают паттерны мозговой активности при произношении цифр. Глубокая нейронная сеть, реконструирующая признаки с шагом в 300 мс, состоит из двух частей: локально-связанная нейронная сеть (LCN) извлекает признаки из спектрограммы, полносвязная сеть (FCN) суммирует получившиеся признаки. Получившиеся признаки сжимаются с 516 до 256 с помощью автокодировщика, вокодер восстанавливает параметры из этого сжатого состояния с помощью декодера и воспроизводит звук. Параметры вокодера состоят из огибающей спектра, основной частоты (f0), структуры (voicing) и апериодичности.

    Эксперимент

    Когда люди говорят или слушают, у них в мозге возникают определенные паттерны активности. Исследователи Колумбийского университета поместили электроды в слуховую кору пациентов, которые лечатся от эпилепсии, чтобы отследить и записать эти сигналы.

    Участники эксперимента слушали записи, в которых другие люди зачитывали цифры от 0 до 9. Сигналы их мозга были пропущены через вокодер. Синтезатор речи генерировал звуки, которые обрабатывались нейронной сетью, чтобы повысить четкость произношения. В результате технология, похожая на те, которые используются в Amazon Echo и Siri, воспроизводила нужную последовательность чисел. Прослушать получившуюся речь можно здесь

    Ограничения и будущие исследования

    Работа опубликована в журнале Nature. На данный момент технология может воспроизводить только те слова, которые слышали выбранные пять пациентов и не работает ни для кого другого. Кроме того, это все ещё не собственная речь пациентов, а только то, что они прослушали.

    В дальнейшем команда ученых планирует протестировать разработку на более сложных словах и предложениях. После этого они смогут начать эксперименты с отделами мозга, которые отвечают за синтез речи. Конечная цель — создать имплант, подобный тем, которые носят пациенты с эпилепсией, чтобы переводить мысли непосредственно в слова.