多尺度胶囊网络用于预测DNA-蛋白质绑定位点

本文提出了一种多尺度胶囊网络(MSC)架构,用于预测DNA-蛋白质结合位点,以改进模体发现任务。该模型结合了多尺度卷积和胶囊网络,能更好地利用大规模测序数据。在ChIP-seq数据集上的实验显示, MSC相对于DeepBind和Deepsea有显著提升,表明其在转录因子结合位点预测上的优越性。
摘要由CSDN通过智能技术生成

文章信息

原文:Multi-Scale Capsule Network for Predicting DNA-Protein Binding Sites

摘要

发现DNA-蛋白质结合位点,也称为模体发现,是进一步分析转录因子的基础。将卷积神经网络等深度学习算法引入到模体发现任务中,取得了较好性能。
但由于CNN的局限性,基于CNN的模体发现方法并没充分利用高通测序技术产生大规模测序数据。因此本文提出了多尺度胶囊网络架构(MSC),集成了多尺度CNN和胶囊网络,前者为CNN的变体,能够提取不同长度的模体特征,后者是一种旨在改进CNN的新型人工神经网络架构。
该方法在数据集ChIP-seq上测试,与DeepBind和Deepsea相比,有了很大提高。

生物学背景

转录因子

转录因子(TFS)是一种重要蛋白质,通过与DNA序列的特定区域结合,从何控制着基因的表达。

结合位点

上述中DNA的特定结合区,被称为转录因子结合位点。

影响

转录因子以及转录因子结合位点发挥着重要的生物学作用,并具有许多重要功能,如:指导细胞活动对细胞间幸好的反应。转录因子与大量人类疾病和表型有关。转录因子和转录因子结合体的突变可能是疾病的基础,通过发现转录因子结合体,也称为模体发现,可以帮助理解基因的表达并找到找到治疗这些疾病的方法。

数据集

从Encyclopedia of DNA Elements (ENCODE) 下载了50个公开的CHIP-seq。

模型构建框架

在这里插入图片描述
a):输入数据为DNA序列。
b):将其one-hot编码,构成图的形状。
c):多尺度卷积层:三部分卷积构成、每部分卷积核个数一致、卷积之后均采用MaxPool、不同之处在于每部分卷积核大小不同。
d):三部分卷积之后,根据Concat将其作为最终的卷积后特征。
e):卷积后的数据送往最后一层,胶囊神经网络。

实验结果

在这里插入图片描述
该实验结果图为:5个MSC模型在50个数据集上所实验的结果的平均值与中位数值。旨在寻找合适的卷积核个数、卷积核大小。
在这里插入图片描述
上图为个模型的在CNN部分的参数,以下为个人理解(可能存在问题)。

模型 a: layer=2,kernel_size=3、5;

模型 b: layer=3,kernel_size=3、5、7;

模型 c: layer=4,kernel_size=3、5、7、9;

模型 d: layer=3,kernel_size=5、10、15;

模型 e: layer=2,kernel_size=5、10、15;

在这里插入图片描述
本文章方法,与其他方法对比结果图。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值