论文解析-基因序列编码算法DeepSEA

参考

Zhou, J., Troyanskaya, O. Predicting effects of noncoding variants with deep learning–based sequence model. Nat Methods 12, 931–934 (2015). https://doi.org/10.1038/nmeth.3547

亮点

  1. 从大范围上下文序列中整合信息(变异位点附近的系列决定变异的调控属性)
  2. 使用分层架构在多个空间尺度上学习序列代码
  3. 共享预测特征的不同染色质因子的多任务联合学习(一个序列特征可以同时用于识别指定TF的结合位点,及预测TF的物理交互)

功能

基于基因序列预测基因序列的非编码变异的功能影响,具体包括预测非编码区域的调控信息、疾病或性状相关的SNP、非编码eQTLs等。
数学建模为每个输入序列的多标签任务,每个标签为当前任务的候选染色质特征,用预测结果的概率表示该序列具有该特征的可能性。
在这里插入图片描述

方法

在这里插入图片描述

数据集

来源

数据库 ENCODE 和项目 Roadmap Epigenomics projects

数据

包括160个不同TF的690个TF结合谱,125个DNase I敏感位点(DHS)图谱,104个组蛋白标记谱。

实验评估

评估DeepSEA预测染色质特征的性能

这里的染色质特征包括基于序列预测TF 结合位点、DNase-seq图谱、组蛋白标志图谱;结果表明,DeepSEA对这3钟预测任务均达到较高AUC
在这里插入图片描述

评估DeepSEA在变异序列上的DHS预测性能

数据集

来自ENCODE的等位基因失衡信息的DNase-seq数据,包括35种细胞类型的57,407个等位基因失衡的SNPs,其中28,918个是参考等位基因偏差的变异、28,489个替代等位基因偏差的变异。
等位基因失衡:当在单细胞类型的杂合位点观察到一个等位基因明显高于另一个等位基因时,表明两个等位基因的 DNase I 敏感性不同。

结果

图b种横(纵)轴表示DeepSEA预测的替代(参考)等位基因偏差的变异为DHS的概率,蓝色(红色)表示实验确定的替代(参考)等位基因偏差,黑线为确定预测可信度的阈值。
图c蓝色线表示单种细胞类型中DeepSEA预测DHS的准确率,红色为35种细胞类型的平均值。可以看出,随着可信度阈值的提高,DeepSEA的准确度明显提高。
在这里插入图片描述
此外,作者还证明DeepSEA可以高置信度地预测SNPs在TF结合位点的影响(多分类问题)、非编码调控突变、非编码eQTLs、非编码性状相关SNP

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值