fbpx
  • Нейросеть диагностирует депрессию по комплексу внешних факторов

    нейросеть депрессия
    Изображение - venturebeat.com

    Депрессия является серьёзным заболеванием, от которого страдает большое количество людей в мире. Исследователи из Индийского технологического института Патна и Университета Кана в Нормандии представили глубокую нейронную сеть, которая может быть использована для определения депрессии за счёт модальных признаков — выражения лица, положения головы и других внешних проявлений. Исходя из результатов эксперимента можно сказать, что данная модель превосходит существующие на 7% по квадратичной ошибке (RMSE) и на 8% по средней абсолютной ошибке (MAE).

    Архитектура

    Архитектура модели состоит из трёх основных компонентов:

    1. Модальные кодеры — принимают на вход модальные данные, такие как голос человека, положение его лица и кодирует их для подсети слияния.
    2. Подсеть слияния — объединяет все кодеры.
    3. Подсеть регрессии — выводит оценочный балл PHQ-8.

    Датасет DAIC-WOZ

    DAIC-WOZ содержит клинические опросы, предназначенные для диагностики тревоги, депрессии и стресса.

    Датасет содержал в себе 189 сеансов интервью, где помимо аудиозаписей подробно описаны положения лица, его характеристика и направление взгляда. В обучении использовался набор данных, которые включали в себя запись интервью, двоичные метки PHQ-8, баллы PHQ-8, пол участника и ответы, которые он давал на поставленные вопросы. В тестовом наборе данных использовались только интервью и пол участника.

    Эксперимент

    Ниже приведена таблица эффективности данной модели и других методов (VFSC, MMD, AW) по трём метрикам: среднеквадратическая ошибка (RMSE), средняя абсолютная ошибка (MAE) и оценка дисперсии (EVS).

    • Кодер положения лица MEFL, использует слой LSTM c 256 ячейками памяти.
    • Кодер позиции наклона головы MEHP, использует двухслойный LSTM с 6 и 5 ячейками памяти.
    • Кодер положения глаз MEEG, использует слой LSTM с 64 ячейками памяти.
    • Кодер действий MEAU, использует слой LSTM с 16 ячейками памяти
    • Кодер транскрипции METR, использует слой LSTM с 200 ячейками памяти.
    • Кодеры голоса и акустической характеристики MECOV и MEFMT, имеют по одному LSTM слою с 37 и 10 ячейками соответственно.
    • CombAtt AxV — слияние кодеров MECOV, MEFMT, MEFL, MEHP, MEAU, MEEG.
    • CombAtt TxV — слияние кодеров MEFL, MEHP, MEAU, MEEG, METR.
    • CombAtt AxTxV — слияние всех кодеров.
    • CombAtt attentionless — слияние всех кодеров, но с использованием 300 скрытых слоёв ReLU.

    Результаты тестирования:

    По результатам можно сделать вывод, что алгоритм со всеми модулями даёт лучшие результаты.