Нейросеть диагностирует депрессию по комплексу внешних факторов

нейросеть депрессия
Изображение - venturebeat.com

Депрессия является серьёзным заболеванием, от которого страдает большое количество людей в мире. Исследователи из Индийского технологического института Патна и Университета Кана в Нормандии представили глубокую нейронную сеть, которая может быть использована для определения депрессии за счёт модальных признаков — выражения лица, положения головы и других внешних проявлений. Исходя из результатов эксперимента можно сказать, что данная модель превосходит существующие на 7% по квадратичной ошибке (RMSE) и на 8% по средней абсолютной ошибке (MAE).

Архитектура

Архитектура модели состоит из трёх основных компонентов:

  1. Модальные кодеры — принимают на вход модальные данные, такие как голос человека, положение его лица и кодирует их для подсети слияния.
  2. Подсеть слияния — объединяет все кодеры.
  3. Подсеть регрессии — выводит оценочный балл PHQ-8.

Датасет DAIC-WOZ

DAIC-WOZ содержит клинические опросы, предназначенные для диагностики тревоги, депрессии и стресса.

Датасет содержал в себе 189 сеансов интервью, где помимо аудиозаписей подробно описаны положения лица, его характеристика и направление взгляда. В обучении использовался набор данных, которые включали в себя запись интервью, двоичные метки PHQ-8, баллы PHQ-8, пол участника и ответы, которые он давал на поставленные вопросы. В тестовом наборе данных использовались только интервью и пол участника.

Эксперимент

Ниже приведена таблица эффективности данной модели и других методов (VFSC, MMD, AW) по трём метрикам: среднеквадратическая ошибка (RMSE), средняя абсолютная ошибка (MAE) и оценка дисперсии (EVS).

  • Кодер положения лица MEFL, использует слой LSTM c 256 ячейками памяти.
  • Кодер позиции наклона головы MEHP, использует двухслойный LSTM с 6 и 5 ячейками памяти.
  • Кодер положения глаз MEEG, использует слой LSTM с 64 ячейками памяти.
  • Кодер действий MEAU, использует слой LSTM с 16 ячейками памяти
  • Кодер транскрипции METR, использует слой LSTM с 200 ячейками памяти.
  • Кодеры голоса и акустической характеристики MECOV и MEFMT, имеют по одному LSTM слою с 37 и 10 ячейками соответственно.
  • CombAtt AxV — слияние кодеров MECOV, MEFMT, MEFL, MEHP, MEAU, MEEG.
  • CombAtt TxV — слияние кодеров MEFL, MEHP, MEAU, MEEG, METR.
  • CombAtt AxTxV — слияние всех кодеров.
  • CombAtt attentionless — слияние всех кодеров, но с использованием 300 скрытых слоёв ReLU.

Результаты тестирования:

По результатам можно сделать вывод, что алгоритм со всеми модулями даёт лучшие результаты.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt