文献调研-利用深度学习模型基于scRNA-seq数据识别细胞亚型

Word2vec+LSTM

参考

X. Dong, S. Chowdhury, U. Victor, X. Li and L. Qian, “Semi-supervised Deep Learning for Cell Type Identification from Single-Cell Transcriptomic Data,” in IEEE/ACM Transactions on Computational Biology and Bioinformatics, doi: 10.1109/TCBB.2022.3173587.

模型架构

在这里插入图片描述
输入x为细胞,只有部分细胞有类型注释。

  1. 与Word2vec类似,Gene2vec利用与一个基因共表达的其他基因定义该基因,这能够以更有效的方式捕捉基因相关性。本文选取表达值最高的topk基因,S(g)=<g1,g2,g3,…,gt,…,gk>;每个基因用Gene2vec生成的embedding表示,<g1,g2,g3,…,gt,…,gk>=<e1,e2,e3,…,et,…,ek>,et为gt的embedding。
  2. 将基因embedding输入BiLSTM,每个节点的输出(z)是将正向LSTM向量,输入,反向LSTM向量拼接得到的。
  3. 将z输入有监督BiLSTM,学习有标签样本的深度特征(z’),计算输出与标签的交叉熵损失函数(CEL);将z输入无监督BiLSTM学习无标签样本的重构特征(z’‘),计算z’'与z’的均方误差(MSEL)。最终损失函数是这两项误差值和。
    在这里插入图片描述
    在这里插入图片描述

实验结果

  1. 对比算法
    (1)Word-level CNN (Word CNN)
    Y. Kim, “Convolutional neural networks for sentence classification,” arXiv preprint arXiv:1408.5882, 2014.
    (2)Attention-Based Bidirectional RNN (Att RNN)
    P. Zhou, W. Shi, J. Tian, Z. Qi, B. Li, H. Hao, and B. Xu, “Attention based bidirectional long short-term memory networks for relation classification,” in Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), 2016, pp. 207–212.
    (3)Recurrent CNN (RCNN)
    S. Lai, L. Xu, K. Liu, and J. Zhao, “Recurrent convolutional neural networks for text classification,” in Twenty-ninth AAAI conference on artificial intelligence, 2015.
    (4)word-level bidirectional RNN (Word RNN)
  2. 实验结果分析
    (1)在机器学习算法中决策树和SVM准确率最高
    (2)通过Gene2vec得到的embedding比原始基因表达数据能够提高预测准确率。 在这里插入图片描述

GNN+BOF

参考

Li, Junyi,Jiang, Wei,Han, Henry,Liu, Jing,Liu, Bo,Wang, Yadong.ScGSLC: An unsupervised graph similarity learning framework for single-cell RNA-seq data clustering[J]Computational biology and chemistry.2021.90

模型架构

在这里插入图片描述

数据预处理

  1. 输入数据包括基因表达谱和蛋白-蛋白互作网络(PPI)。对基因表达谱,行为基因,列为细胞,挑选方差最大的top5k的基因。
  2. 根据PPI将基因映射到网络结构中,但由于有的基因无法在PPI中找到对应ID,因此利用KNN算法(K=2)构建基因共表达网络,将基因共表达网络和PPI融合作为最终网络结构,以保证每个基因均可在网络中找到对应节点。
  3. 如果一个细胞中某基因的表达水平在低于设置的基因表达阈值,则移除该细胞中该基因对应的节点和相关的边。至此,每个细胞可以表示为一个图,细胞相关性可以用图相似性表示。

无监督图模型

  1. 节点特征更新:对于每个细胞的图,采用GCN结合节点本身和其邻居节点的信息。具体方式采用2018年提出的图同构网络(GIN),传播方式如下:
    在这里插入图片描述
    MLP为多层感知机, ϵ为可训练的参数或超参数,Ni为基因i的邻居节点集合。
  2. Bag of features (BOF) 算法
    常用的将图结构转回特征向量的方法包括kernel,graph2vec等,但他们均基于图的子结构,并未考虑边或节点的额外信息。因此本文采用BOF算法将每个图转化为特征向量。BOF算法中,所有图得到的节点特征{v0,v1,…,vm}为输入,根据节点向量进行聚类构建特征字典,将每个图表示为直方图向量。
    BOF算法具体步骤:
    输入:一系列特征向量,例如图中的节点特征,边特征,图像中的像素特征等。
    (1)对所有特征向量聚类,例如k-means等,k根据应用场景指定参数。
    (2)聚类后得到k个聚类中心,即k个特征向量。
    (3)对于每个特征,寻找离他最近的聚类中心。遍历所有特征向量,计算每个特征中心出现的频率,得到特征中心的直方图向量,即长度为k的特征向量。
    输出:长度为k的特征向量。
    更多BOF原理相关解释参考该链接
    至此,每个细胞可表示为一个特征向量,可根据向量进行细胞聚类,识别细胞类型。
  3. 损失函数
    图中节点u的损失函数如下所示,v为u进行随机游走得到的邻居节点。
    在这里插入图片描述

数据集

在这里插入图片描述

实验结果(ARI)

在这里插入图片描述

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值