使用CNN预测基因可及性

使用CNN预测基因可及性

对于要转录的基因,转录因子蛋白必须能够访问它们才能与DNA结合。遗传密码中的突变会极大地改变DNA的可及性,进而影响基因表达。了解这些突变如何扰乱遗传机制可以导致更有针对性的医学和个性化治疗。但是,当前无法有效解释基因组中的非编码变体减慢了这一进展。在“ Basset:使用深度卷积神经网络学习可访问基因组的调控代码”中,作者通过实现一个卷积神经网络来从序列数据中学习DNA的活性和可访问性,从而解决了这一挑战。

他们的CNN使用了三个卷积层,分别使用了整流线性单元(ReLU)和最大池,之后是两个完全连接的隐藏层。最后,单个S形变换层提供模型的输出。使用来自164个不同细胞系的DNAse-Seq数据训练模型。如“深度学习中的生物学数据”部分所述,DNAse-Seq数据通过用酶DNAse I裂解来捕获可访问的DNA。数据是从ENCODE项目联盟和路线图基因组学联盟收集的。输入由至少一个细胞系中出现的序列周围的600个碱基对组成。该序列以一键向量格式编码,并用于输入。输出是长度为164的向量,该向量预测在每个细胞系中可访问序列的可能性。

训练后,该模型的性能优于基于支持向量机模型的最新方法。当从DNA序列学习模式时,这支持了CNN模型的优势。

然后,作者试图通过分析第一卷积层的内核权重来解释其模型的各个部分。通过分析巴塞特第一卷积层的300个滤镜,作者注意到滤镜捕获了大量已知的带注释主题。这些特征图捕获的另一件事是高GC富集的许多区域,表明了潜在的CpG位点。基因的转录起始位点通常具有CpG位点来控制调控。当这些区域被高度甲基化时,DNA变得更难获得并且基因被下调。否则,如果该位点没有被高度甲基化,则转录因子可以与DNA结合并允许转录发生。这些特征图的另一个有趣发现是尚未注释的新型潜在图案。

作者通过采用训练有素的模型并将单个核苷酸更改为不同的核苷酸,从而观察DNA的可及性变化,从而扩大了这项研究的范围。基于可访问性的最大可能减少和最大可能增加,基于训练后的模型如何对更改后的序列评分,分配损失得分和收益得分。他们可以从这些数据中推断出单核苷酸多态性(SNP)突变对序列的影响。高增益得分可以表明,如果突变允许某个基因更易于访问,则该突变可能导致功能获得。另一方面,高丢失评分可能表明突变会导致功能丧失,从而使DNA的可及性降低,基因调控可能降低或消失。这个实验饱和诱变可能需要很长时间才能在湿实验室中进行,因为必须为每个位置的每个突变都制备一个寡核苷酸。他们的模型仅需几分钟即可进行计算机饱和诱变

作者使用获利和损失得分,整合了来自基因组广泛关联研究(GWAS)的数据,这些数据通常用于识别导致疾病或其他表型改变的非编码变异。他们相信,利用他们的预测,他们可以鉴定出GWAS发现的非编码DNA区域中的SNP,这些区域对于未来的研究最有希望。为了测试这一点,他们将模型的损失和收益得分与已经注释过的因果GWAS SNP进行了比较。特别是,他们表明已知的白癜风突变被赋予了非常高的增益分数,这种突变是在一个基因沙漠中发现的,该基因是来自受影响基因的数百万个碱基对。从T到C的突变为称为CTCF的主转录因子创造了一个基序。已知该转录因子用于改变基因组区域的物理结构。

最后,作者希望证明预训练的模型可以有效地预测新数据集。为此,他们从训练过程中删除了15个细胞系,并训练了CNN模型。然后,对于它们删除的其余15个数据集,从训练集中抽取了相等数量的样本作为负样本。他们表明,使用此预训练的模型作为起点,可以使用此数据对任何将来的CNN模型进行更快的训练(单次通过)。

在本文中,作者证明了CNN模型可以准确地预测DNA的可及性,并可以用来发现控制DNA的可及性的关键核苷酸。与以往任何方法相比,作者能够以更高的分辨率识别非编码变体和关键SNP,因此他们的模型可以导致对重要的非编码变体和所涉及的SNP进行更多的识别,并将这些非编码变体链接在一起。编码疾病或生理表型的变体。

 

参考

Kelley DR,Snoek J,Rinn JL。巴塞特(Basset):使用深度卷积神经网络学习可访问基因组的调控代码。基因组研究。2016; 26(7):990-999。doi:10.1101 / gr.200535.115。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值