参考
Zhou, J., Troyanskaya, O. Predicting effects of noncoding variants with deep learning–based sequence model. Nat Methods 12, 931–934 (2015). https://doi.org/10.1038/nmeth.3547
亮点
- 从大范围上下文序列中整合信息(变异位点附近的系列决定变异的调控属性)
- 使用分层架构在多个空间尺度上学习序列代码
- 共享预测特征的不同染色质因子的多任务联合学习(一个序列特征可以同时用于识别指定TF的结合位点,及预测TF的物理交互)
功能
基于基因序列预测基因序列的非编码变异的功能影响,具体包括预测非编码区域的调控信息、疾病或性状相关的SNP、非编码eQTLs等。
数学建模为每个输入序列的多标签任务,每个标签为当前任务的候选染色质特征,用预测结果的概率表示该序列具有该特征的可能性。
方法
数据集
来源
数据库 ENCODE 和项目 Roadmap Epigenomics projects
数据
包括160个不同TF的690个TF结合谱,125个DNase I敏感位点(DHS)图谱,104个组蛋白标记谱。
实验评估
评估DeepSEA预测染色质特征的性能
这里的染色质特征包括基于序列预测TF 结合位点、DNase-seq图谱、组蛋白标志图谱;结果表明,DeepSEA对这3钟预测任务均达到较高AUC
评估DeepSEA在变异序列上的DHS预测性能
数据集
来自ENCODE的等位基因失衡信息的DNase-seq数据,包括35种细胞类型的57,407个等位基因失衡的SNPs,其中28,918个是参考等位基因偏差的变异、28,489个替代等位基因偏差的变异。
等位基因失衡:当在单细胞类型的杂合位点观察到一个等位基因明显高于另一个等位基因时,表明两个等位基因的 DNase I 敏感性不同。
结果
图b种横(纵)轴表示DeepSEA预测的替代(参考)等位基因偏差的变异为DHS的概率,蓝色(红色)表示实验确定的替代(参考)等位基因偏差,黑线为确定预测可信度的阈值。
图c蓝色线表示单种细胞类型中DeepSEA预测DHS的准确率,红色为35种细胞类型的平均值。可以看出,随着可信度阈值的提高,DeepSEA的准确度明显提高。
此外,作者还证明DeepSEA可以高置信度地预测SNPs在TF结合位点的影响(多分类问题)、非编码调控突变、非编码eQTLs、非编码性状相关SNP