文章信息
原文:Multi-Scale Capsule Network for Predicting DNA-Protein Binding Sites
摘要
发现DNA-蛋白质结合位点,也称为模体发现,是进一步分析转录因子的基础。将卷积神经网络等深度学习算法引入到模体发现任务中,取得了较好性能。
但由于CNN的局限性,基于CNN的模体发现方法并没充分利用高通测序技术产生大规模测序数据。因此本文提出了多尺度胶囊网络架构(MSC),集成了多尺度CNN和胶囊网络,前者为CNN的变体,能够提取不同长度的模体特征,后者是一种旨在改进CNN的新型人工神经网络架构。
该方法在数据集ChIP-seq上测试,与DeepBind和Deepsea相比,有了很大提高。
生物学背景
转录因子
转录因子(TFS)是一种重要蛋白质,通过与DNA序列的特定区域结合,从何控制着基因的表达。
结合位点
上述中DNA的特定结合区,被称为转录因子结合位点。
影响
转录因子以及转录因子结合位点发挥着重要的生物学作用,并具有许多重要功能,如:指导细胞活动对细胞间幸好的反应。转录因子与大量人类疾病和表型有关。转录因子和转录因子结合体的突变可能是疾病的基础,通过发现转录因子结合体,也称为模体发现,可以帮助理解基因的表达并找到找到治疗这些疾病的方法。
数据集
从Encyclopedia of DNA Elements (ENCODE) 下载了50个公开的CHIP-seq。
模型构建框架
a):输入数据为DNA序列。
b):将其one-hot编码,构成图的形状。
c):多尺度卷积层:三部分卷积构成、每部分卷积核个数一致、卷积之后均采用MaxPool、不同之处在于每部分卷积核大小不同。
d):三部分卷积之后,根据Concat将其作为最终的卷积后特征。
e):卷积后的数据送往最后一层,胶囊神经网络。
实验结果
该实验结果图为:5个MSC模型在50个数据集上所实验的结果的平均值与中位数值。旨在寻找合适的卷积核个数、卷积核大小。
上图为个模型的在CNN部分的参数,以下为个人理解(可能存在问题)。
模型 a: layer=2,kernel_size=3、5;
模型 b: layer=3,kernel_size=3、5、7;
模型 c: layer=4,kernel_size=3、5、7、9;
模型 d: layer=3,kernel_size=5、10、15;
模型 e: layer=2,kernel_size=5、10、15;
本文章方法,与其他方法对比结果图。