DeepSEA-用深度学习预测非编码变异的效应

Zhou, J., Troyanskaya, O. Predicting effects of noncoding variants with deep learning–based sequence model. Nat Methods 12, 931–934 (2015). https://doi.org/10.1038/nmeth.3547

 一. 摘要:(目的、方法、结果、优势)

从原始序列中预测非编码变异的效应,基于深度学习模型,预测不同的染色质特征,以及预测单核苷酸改变后的染色质效应。可以利用该方法改进功能变异的优先级排序(包括eQTL和疾病相关变异)

figure 1

二. 背景(已有解决方案及存在的问题、提出的新解决方案及可行之处)

1. 在感兴趣的位点 整合进化保守性以及基因组注释。但无法只从基因组序列,从头进行非编码变异功能预测,这需要精确的单核苷酸敏感性的等位基因特异性预测。

2. 上述挑战的关键在于建立一个定量模型,以单核苷酸敏感性从 DNA 序列中准确估计染色质蛋白的结合和组蛋白标记情况。因此,要想基于序列对染色质特征进行准确预测,就需要一个灵活的定量模型,能够对这种复杂的依赖关系(TF binding会被辅因子、开放性、修饰、结构等影响)进行建模-然后这些预测结果可用于估计非编码变异体的功能效应。

3. 直接从基因组序列中,通过预测染色质谱数据(TF binding、DHS、Histone-mark)学习调控序列密码。①整合序列背景信息、② 利用分层架构学习多个空间尺度的序列密码,③对多种染色质因子共享的预测特征进行多任务联合学习。521.6 Mbp of the genome (17%) 至少结合了一个TF,被用作调控信息丰富的集合来训练模型???(DHS和Histone不用吗???)--它们是变异分析(Variant analyses were not restricted to this region.)

染色质特征:690 TF binding profiles for 160 different TFs, 125 DHS profiles ,104 histone-mark profiles

三. 关键结果(图)

1. 预测能力

TF binding的AUC=0.985(gkm-SVM的median AUC=0.896),DHSs (median AUC = 0.923) and histone modifications (median AUC = 0.856)

2. 计算机饱和诱变

分析每个碱基替换对染色质特征预测的效应,识别哪些序列特征(DNA序列元素:单个碱基、motif、DNA启动子等)对一个特定的染色质效应预测最有信息价值。identifying predictive sequence features。其效应值定义为:

P0是原始序列,P1是突变序列

Many sequence elements identified are consistent with canonical motifs。

用来说明模型的初步基本准确性。

3. 对非编码序列中单核苷酸改变的染色质效应进行系统评估(DHS classifier )

将allelic imbalance-在DHS数据中,某一个等位基因比另一个更常见-表示两个等位基因对 DNase I 的敏感性不同。(观察在某个位点上两个等位基因的相对表达量,进而推断该位点的染色质状态是否发生了改变,以及这种改变是否与单核苷酸变异有关)将57,407 allelically imbalanced SNPs from 35 cell types with DHS predictors in DeepSEA (28,918 reference allele–biased variants, 28,489 alternative allele–biased variants)作为等位基因不平衡的标准,在单核苷酸灵敏度上评估 DeepSEA 的 DHS 预测结果。

DeepSEA模型在给定某个单核苷酸变异的情况下,准确地预测了与该变异相关的更敏感的DNase I位点(对该位点的敏感性进行分类),DeepSEA模型能够在不训练变异数据的情况下,仅通过训练参考基因组数据,就准确预测单核苷酸变异对染色质状态的影响。

作者不仅用已知的DHS来评估,还用了组蛋白修饰的QTLs,说明预测的等位基因失衡SNPs与QTL效应高度一致。(模型是通过试验获得的DHS等位基因不平衡数据训练的,它可能学习到了与组蛋白修饰相关的信息,并且预测结果即单个变异对DHS而言是否是等位基因不平衡的SNP,与实际观测的组蛋白修饰QTL效应高度一致。这表明模型在通过DHS数据预测等位基因失衡SNPs对染色质状态的影响时,其预测结果是可信的,并能够反映基因组变异对染色质状态的影响。)

4. 对功能SNPs进行优先级排序

DeepSEA的染色质预测对于常见非编码变异(eQTLs和GWAS)更有信息量,而进化保守性对于HGMD(处于进化选择的有害变异)更有信息量。

四. 关键方法

1. 数据来源及处理

将基因组切分为200bp bins,上下游扩展到1000bp,计算每一个bin的919个染色质特征标签,将至少有一个TF binding的bins用于训练和评价。

2. silico saturated mutagenesis计算机饱和诱变

找到序列中最有信息量的特征,评估输入序列中每个碱基突变的效应(3,000 substitutions on a 1,000 bp sequence)

P0是原始序列,P1是突变序列

3. 染色质特征预测的单核苷酸敏感性评估

使用来自DGF DNase-seq数据的等位基因失衡信息(实验数据)作为正例样本,这些样本是基因组中真实存在的等位基因失衡情况。模型将学习从DNA序列和DHS数据中捕捉这些正例样本之间的关联,并用于预测其他的单核苷酸变异的染色质效应。

对于每个SNP,获得以其为中心的参考基因组为基础的上下游1000bp序列,作为输入。

4. 变异的优先级排序

 HGMD regulatory mutations,eQTLs ,GWAS SNPs的每个变异作为阳性样本,千人基因组SNPs作为阴性样本。获得SNP为中心参考基因组上下游共1000bp序列,创建变异位点处的参考和替代等位基因成对序列,即2x1000bp作为输入,并计算2 × 919个预测的染色质效应特征,其效应定义为:绝对差异

 相对倍数变化

 5. DeepSEA功能的显著性评分(类似p值)

对于一个变异的DeepSEA功能显著性评分,被定义为 预测染色质效应的几何平均 E 值与进化保护特征的几何平均 E 值的乘积。

E 值衡量每个染色质特征和进化信息得分的显著性

对于某个变异的某个预测染色质特征,将 E 值计算为:在同一染色质特征上具有比该SNP更高预测染色质效应值 的 千人基因组SNP的比例(阴性比例)。预测染色质效应值=绝对差异 x 相对倍数变化

五. 生物学意义/应用

可以从TF binding、DHS、histone mark方面来考虑non-coding变异的效应,但依赖于这些生物基因组数据的可用性和准确性

六. 最大改进

①整合序列背景信息(变异的上下游序列)、② 利用分层架构学习多个空间尺度的序列密码,③对多种染色质因子共享的预测特征进行多任务联合学习。

七. 思考

这里涉及两个效应,第一个是用计算机饱和诱变找到对染色质特征最有预测信息量的序列元素,大部分是motifs,说明了模型的初步基础准确性;第二个是用功能变异SNP的上下游序列作为输入,计算该变异的参考和替代等位基因 预测结果的效应差异,可以定义该SNP的预测染色质  效应值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值