Нейросеть диагностирует депрессию по комплексу внешних факторов

нейросеть депрессия — Изображение - venturebeat.com

Депрессия является серьёзным заболеванием, от которого страдает большое количество людей в мире. Исследователи из Индийского технологического института Патна и Университета Кана в Нормандии представили глубокую нейронную сеть, которая может быть использована для определения депрессии за счёт модальных признаков — выражения лица, положения головы и других внешних проявлений. Исходя из результатов эксперимента можно сказать, что данная модель превосходит существующие на 7% по квадратичной ошибке (RMSE) и на 8% по средней абсолютной ошибке (MAE).

Архитектура

Архитектура модели состоит из трёх основных компонентов:

Модальные кодеры — принимают на вход модальные данные, такие как голос человека, положение его лица и кодирует их для подсети слияния.
Подсеть слияния — объединяет все кодеры.
Подсеть регрессии — выводит оценочный балл PHQ-8.

Датасет DAIC-WOZ

DAIC-WOZ содержит клинические опросы, предназначенные для диагностики тревоги, депрессии и стресса.

Датасет содержал в себе 189 сеансов интервью, где помимо аудиозаписей подробно описаны положения лица, его характеристика и направление взгляда. В обучении использовался набор данных, которые включали в себя запись интервью, двоичные метки PHQ-8, баллы PHQ-8, пол участника и ответы, которые он давал на поставленные вопросы. В тестовом наборе данных использовались только интервью и пол участника.

Эксперимент

Ниже приведена таблица эффективности данной модели и других методов (VFSC, MMD, AW) по трём метрикам: среднеквадратическая ошибка (RMSE), средняя абсолютная ошибка (MAE) и оценка дисперсии (EVS).

Кодер положения лица MEFL, использует слой LSTM c 256 ячейками памяти.
Кодер позиции наклона головы MEHP, использует двухслойный LSTM с 6 и 5 ячейками памяти.
Кодер положения глаз MEEG, использует слой LSTM с 64 ячейками памяти.
Кодер действий MEAU, использует слой LSTM с 16 ячейками памяти
Кодер транскрипции METR, использует слой LSTM с 200 ячейками памяти.
Кодеры голоса и акустической характеристики MECOV и MEFMT, имеют по одному LSTM слою с 37 и 10 ячейками соответственно.

CombAtt AxV — слияние кодеров MECOV, MEFMT, MEFL, MEHP, MEAU, MEEG.
CombAtt TxV — слияние кодеров MEFL, MEHP, MEAU, MEEG, METR.
CombAtt AxTxV — слияние всех кодеров.
CombAtt attentionless — слияние всех кодеров, но с использованием 300 скрытых слоёв ReLU.

Результаты тестирования: