基于视听线索的深度学习抑郁症识别的综述

Field: 深度学习、抑郁检测、多模态融合、音视觉

Title: Deep learning for depression recognition with audiovisual cues:A review

Journal: Information Fusion

Data: 2021.11

Author:Lang He

Research context:文章是一篇关于基于音视觉线索来检测抑郁症的综述,文章分别介绍了抑郁症目前的现状、数据集的研究发展、研究方法历程:1.基于音频的抑郁症评估 2.基于视觉的抑郁症评估 3.基于音视频的抑郁症评估(多模态)、以及总结问题、提出展望

Method:

文章的结构:

1.抑郁症目前的现状

难发现、难诊断,并且医疗资源少,发病范围广,在临床上比较难发现,抑郁症的检测依赖于主体以及医生的主观诊断,并没有一个来评定抑郁症的共同准则。同时引出了随着深度学习的发展,研究者尝试用各种线索来进行抑郁症的诊断,抑郁症检测的方法,提取患者的视觉语音线索,从音频、视觉、文本到多模态

2.数据集

本研究共采用了20个不同的抑郁症数据库。就模式而言,大多数数据库涉及一个或多个(例如,音频,视频,生理信号,文本)。有12个数据库被评为单模态,百分比为60%。在单模态类别中,50%的数据库使用音频模态。原因是音频在任何环境下都可以轻松采集。对于多模态数据库,只有8个可用,比例为40%。模态的组合是音频和视频。这样做的原因是视频包含了更多的ADE信息。

生理信号可以包括EEG、ECG

文章展开的研究点:1.语音模型   2.输入为静态图像的抑郁网络     3.输入为图像序列的抑郁网络

Pre-processing 将数据处理成模型可读的输入

对语音数据的预处理,变换成频谱,离散傅里叶变换、短时傅里叶变换、小波变换等

一些常用的网络:CNN、DNN、RNN、C3D(convolutional 3D)、LSTM 、encoder-decoder、GAN(generative adversarial network)

卷积核相当于其他网络中的权重,卷积核起到特征提取的作用

pooling层进行特征的进一步提取,降低特征图的空间分辨率,进行下采样,丢弃信息少的部分,类似于地图放大

RNN会造成梯度爆炸或梯度消失,这是因为随着网络层数的增加,误差系数大于1(梯度爆炸),小于1(梯度消失)

LSTM由三个门函数组成,分别为输入门,输出门,忘记门

上图是DepAudio模型

上图采用了原始图像的延申变化作为输入的,原始波形、频谱、hand craft feature(LLD、MRELBP)

多模态注意力融合机制

上图融合了音频、视觉、文本三种模态

采用特征级融合和模型级融合,模型级融合能获得更好的性能

Badness:一些问题仍需要得到解决

1.从重度抑郁症中分辨和其他类型的抑郁症的不同

2.从小样本中训练学习

3.从手工标记的特征和深度学习特征中提取不同的特征

4.通过融合方法从音视觉线索中提取有代表性的融合互补信息

不足:

1.训练样本数据集太小,数据库虽然公开,但是不能够整合到一起,原因是数据来源于不同的国家、不同的语言、以及标签不同

2.手工标记特征和深度学习特征的结合

3.与不同模态的互补融合

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值