多尺度胶囊网络用于预测DNA-蛋白质绑定位点

最新推荐文章于 2024-03-25 21:00:57 发布

泡面加蛋97

最新推荐文章于 2024-03-25 21:00:57 发布

阅读量701

点赞数 4

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/zpj1997/article/details/119595632

版权

本文提出了一种多尺度胶囊网络（MSC）架构，用于预测DNA-蛋白质结合位点，以改进模体发现任务。该模型结合了多尺度卷积和胶囊网络，能更好地利用大规模测序数据。在ChIP-seq数据集上的实验显示， MSC相对于DeepBind和Deepsea有显著提升，表明其在转录因子结合位点预测上的优越性。

摘要由CSDN通过智能技术生成

文章目录

文章信息

原文：Multi-Scale Capsule Network for Predicting DNA-Protein Binding Sites

摘要

发现DNA-蛋白质结合位点，也称为模体发现，是进一步分析转录因子的基础。将卷积神经网络等深度学习算法引入到模体发现任务中，取得了较好性能。
但由于CNN的局限性，基于CNN的模体发现方法并没充分利用高通测序技术产生大规模测序数据。因此本文提出了多尺度胶囊网络架构（MSC)，集成了多尺度CNN和胶囊网络，前者为CNN的变体，能够提取不同长度的模体特征，后者是一种旨在改进CNN的新型人工神经网络架构。
该方法在数据集ChIP-seq上测试，与DeepBind和Deepsea相比，有了很大提高。

生物学背景

转录因子

转录因子（TFS)是一种重要蛋白质，通过与DNA序列的特定区域结合，从何控制着基因的表达。

结合位点

上述中DNA的特定结合区，被称为转录因子结合位点。

影响

转录因子以及转录因子结合位点发挥着重要的生物学作用，并具有许多重要功能，如：指导细胞活动对细胞间幸好的反应。转录因子与大量人类疾病和表型有关。转录因子和转录因子结合体的突变可能是疾病的基础，通过发现转录因子结合体，也称为模体发现，可以帮助理解基因的表达并找到找到治疗这些疾病的方法。

数据集

从Encyclopedia of DNA Elements (ENCODE) 下载了50个公开的CHIP-seq。

模型构建框架

在这里插入图片描述
a)：输入数据为DNA序列。
b)：将其one-hot编码，构成图的形状。
c)：多尺度卷积层：三部分卷积构成、每部分卷积核个数一致、卷积之后均采用MaxPool、不同之处在于每部分卷积核大小不同。
d)：三部分卷积之后，根据Concat将其作为最终的卷积后特征。
e)：卷积后的数据送往最后一层，胶囊神经网络。