Brain2Char: нейросеть декодирует текст из показаний мозга

Brain2Char — это нейросеть, которая из показаний мозга декодирует информацию в текст. Это первая модель, которая на основе электрокортикографии решает задачу посимвольного восстановления текста. Brain2Char объединяет в себе state-of-the-art модели: 3D Inception слои, двунаправленные рекуррентные слои, расширенные сверточные слои, CTC функцию потерь.

По результатам, процент ошибки модели при декодирования текста трех добровольцев составил 10.6%, 8.5% и 7.0%. Размер словаря при этом варьировался от 1200 до 1900 слов. Было отмечено, что Brain2Char хорошо работает, когда два участника беззвучно изображают с помощью мимики.

Декодирование представлений языка напрямую из мозга может способствовать разработке интерфейсов для взаимодействия мозга и компьютера (BCI). Такие интерфейсы можно было бы использовать для коммуникации между двумя людьми и между человеком и компьютером.

Архитектура модели

Brain2Char имеет модульную структуру и состоит из трех частей: нейронный кодировщик свойств, текстовый декодер и регуляризатор пространства скрытых представлений. Модульная структура позволяет обновлять компоненты нейросети без внесения изменений в структуру модели. Модель для предсказания состоит из кодировщика и декодировщика. Часть с регуляризацией используется только на этапе обучения.

Данные из мозга записываются с помощью электрокортикографии, когда доброволец произносит речь. На вход нейросети поступают 3D изображения мозга, а на выходе отдается текст, который был сгенерирован посимвольно.

Визуализация составных компонентов нейросети

Проверка работы модели

В исследовании принимали участие 4 добровольца, чья речь и мозговая активность синхронно фиксировались. Речь участников состояла из предложений из датасета MOCHA-TIMIT (для первых двух участников) и интервью в свободной форме (для вторых двух участников). Размер словаря в датасете составляет 1900 слов. Размер словаря при личных интервью составил 1200 слов.

Всего было собрано от 120 до 200 минут разговора для каждого участника. Участники 3 и 4 беззвучно с помощью мимики передали 20 предложений друг другу.

Ниже видно, что с увеличением времени обучения, процент ошибки сокращается более чем в два раза.