基于视听线索的深度学习抑郁症识别的综述

傅里没有叶

于 2023-11-15 11:54:43 发布

阅读量645

点赞数 3

CC 4.0 BY-SA版权

分类专栏：文献阅读文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50909869/article/details/134417135

文献阅读专栏收录该内容

5 篇文章

订阅专栏

本文综述了利用深度学习进行抑郁检测的研究，重点关注音频视觉线索，介绍了数据集的发展、单一与多模态分析方法，以及面临的挑战，如样本量小、模态融合等问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Field: 深度学习、抑郁检测、多模态融合、音视觉

Title： Deep learning for depression recognition with audiovisual cues：A review

Journal： Information Fusion

Data： 2021.11

Author：Lang He

Research context：文章是一篇关于基于音视觉线索来检测抑郁症的综述，文章分别介绍了抑郁症目前的现状、数据集的研究发展、研究方法历程：1.基于音频的抑郁症评估 2.基于视觉的抑郁症评估 3.基于音视频的抑郁症评估（多模态）、以及总结问题、提出展望

Method：

文章的结构：

1.抑郁症目前的现状

难发现、难诊断，并且医疗资源少，发病范围广，在临床上比较难发现，抑郁症的检测依赖于主体以及医生的主观诊断，并没有一个来评定抑郁症的共同准则。同时引出了随着深度学习的发展，研究者尝试用各种线索来进行抑郁症的诊断，抑郁症检测的方法，提取患者的视觉语音线索，从音频、视觉、文本到多模态

2.数据集

本研究共采用了20个不同的抑郁症数据库。就模式而言，大多数数据库涉及一个或多个(例如，音频，视频，生理信号，文本)。有12个数据库被评为单模态，百分比为60%。在单模态类别中，50%的数据库使用音频模态。原因是音频在任何环境下都可以轻松采集。对于多模态数据库，只有8个可用，比例为40%。模态的组合是音频和视频。这样做的原因是视频包含了更多的ADE信息。

生理信号可以包括EEG、ECG

文章展开的研究点：1.语音模型 2.输入为静态图像的抑郁网络 3.输入为图像序列的抑郁网络

Pre-processing 将数据处理成模型可读的输入

对语音数据的预处理，变换成频谱，离散傅里叶变换、短时傅里叶变换、小波变换等

一些常用的网络：CNN、DNN、RNN、C3D（convolutional 3D）、LSTM 、encoder-decoder、GAN（generative adversarial network）

卷积核相当于其他网络中的权重，卷积核起到特征提取的作用

pooling层进行特征的进一步提取，降低特征图的空间分辨率，进行下采样，丢弃信息少的部分，类似于地图放大

RNN会造成梯度爆炸或梯度消失，这是因为随着网络层数的增加，误差系数大于1（梯度爆炸），小于1（梯度消失）

LSTM由三个门函数组成，分别为输入门，输出门，忘记门

上图是DepAudio模型

上图采用了原始图像的延申变化作为输入的，原始波形、频谱、hand craft feature（LLD、MRELBP）

多模态注意力融合机制

上图融合了音频、视觉、文本三种模态

采用特征级融合和模型级融合，模型级融合能获得更好的性能

Badness：一些问题仍需要得到解决

1.从重度抑郁症中分辨和其他类型的抑郁症的不同

2.从小样本中训练学习

3.从手工标记的特征和深度学习特征中提取不同的特征

4.通过融合方法从音视觉线索中提取有代表性的融合互补信息

不足：

1.训练样本数据集太小，数据库虽然公开，但是不能够整合到一起，原因是数据来源于不同的国家、不同的语言、以及标签不同

2.手工标记特征和深度学习特征的结合

3.与不同模态的互补融合

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。