基于深度学习的抑郁症检测混合模型

最新推荐文章于 2024-12-08 08:43:22 发布

傅里没有叶

最新推荐文章于 2024-12-08 08:43:22 发布

阅读量1.1k

点赞数

分类专栏：文献阅读文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_50909869/article/details/134416829

版权

文献阅读专栏收录该内容

5 篇文章

订阅专栏

Field: 深度学习、抑郁检测、多模态

Title： A hybrid model for depression detection using deep learning

Journal： Measurement: Sensors

Data： 2022.11

Author：Vandana a, Nikhil Marriwala

Research context：针对语音和文本数据，文章提出构建了三种模型，分别验证三种模型在抑郁倾向上的检测效果，对比研究

Method：

提出了三种抑郁症检测模型：

1.textual CNN

2.audio CNN

3.text CNN and audio CNN 混合（混合LSTM，混合Bi-LSTM）

作者验证了三者的各项指标，accuracy、F1 score、loss and so on,发现audio CNN在抑郁症检测方面上能获得良好的效果,准确率达到98%，损失为0.1%，而text CNN的准确度为92%，损失为0.2%，混合LSTM模型的准确率为0.80%，损失为0.4。Bi-LSTM模型的精度为0.88，高于混合LSTM模型，损失为0.2。这意味着对于抑郁症检测，Bi-LSTM模型比LSTM模型更准确地预测。但是仍低于Audio CNN

Goodness:

提出了一个基于语音和文本的抑郁症倾向检测的混合模型（混合Bi-LSTM和混合LSTM），文章对比研究了语音数据集在Audio CNN上表现特点、文本数据集在Text CNN、以及语音和文本在混合模型上的性能。

文章将文本信息转化为向量加入到CNN中，将语音限号每帧的频谱作为图像输入到CNN中

Badness：

混合模型（混合Bi-LSTM和混合LSTM）的效果并没有Audio CNN 的好，并没有仔细提出实验过程，只是提供了原理

Study：

1.在文本CNN中进行文本分类的工作，使用了工作嵌入层和CNN层。单词嵌入是单词的矢量或图片表示。Word 2 vec是词到向量的意思，是最流行的词嵌入技术。Word 2 vec的输入是文本数据，输出是矢量或图片。

2.音频分类的第一步是将音频样本转换为频谱图。这是音频分类的重要步骤。频谱图是信号频率随时间变化的视觉表示。

在将音频样本转换为频谱图之后，下一步是音频分割。在音频分割中，从音频样本中去除额外的噪声和静音，这一步骤也称为分段。在从音频或语音样本中去除不需要的噪声和静音之后，下一步是数据不平衡。在数据集中，非抑郁症患者的信息量要多于抑郁症患者。这是抑郁症患者数据的四倍。这就是为什么数据不平衡很重要。平衡抑郁症的数据：非降为等数。第三步是频谱转换。采样的音频片段然后被转换成大小为512*512像素的频谱图图像。这些图像以8：2的比例放入训练和验证文件夹中。

3.LSTM或（长短期记忆）算法是一种递归神经网络（RNN），其中大部分特征与一层到上一层相关联，它还允许信息从过去传递到现在，然后从现在传递到未来。RNN对向量序列进行操作。因此，每一层都依赖于先前的输出。RNN的问题是，随着时间的推移，信息会迅速丢失。

它们是为了解决RNN中的信息丢失问题而设计的。LSTM能够学习长时间的依赖关系，这使得RNN在记忆事物方面足够聪明。使用LSTM的优势在于，它将有助于数据处理预测和预处理应用。

4.neural network层

（1）卷积层是神经网络的第一层，也是最重要的一层。这一层创建了整个神经网络的构建块。卷积层的主要目的是检测输入的类型，即，文本特征、音频特征或两者。在卷积层，输入图像与相同大小的滤波器卷积，然后得到输出图像。在输出中，开发了特征图。卷积层采用滤波核作为权值，权值在卷积层采用反向传播算法更新。

（2）最大池化层-池化层位于两个卷积层之间。池化层的主要工作是减少输入的大小。这一层帮助模型减少数据的实际大小，并仅使用必要的数据信息更新数据。这一层提高了神经网络的效率。它减少了数据中不需要的特征。池化层在卷积层和全连接层之间创建了一个桥梁。池层也有助于减少神经网络中发生的过拟合问题。

（3）ReLU作为激活函数- ReLU意味着整流线性单元，该函数描述非线性。该层将所有负值数据替换为零值。该层是重要的层，因为它决定将哪些信息传递到下一个卷积层以及丢弃哪些信息。有许多激活函数，如SoftMax，ReLU，tanH，Sigmoid。

（4）完全连接层-通常放置在输出分类层之前的完全连接层。在这一层中，分类开始发生，结果会自动更新。在神经网络中，使用一个或两个完全连接的层是很重要的。

（5）Batch Normalization- Batch Normalization层将前一层的输出归一化。它有助于模型有效地学习特征。它使模型稳定，执行速度更快。它使模型的处理和学习更快。

（6) Dropout层- Dropout是一个有助于减少模型中过度拟合的层。它随机丢弃神经网络的一些值，使模型学习速度更快。丢弃层放置在完全连接层之后。推荐的dropout值为0.25。它会导致神经网络的训练速度变慢。