DeepAc4C: a convolutional neural network model with hybrid features composed of physicochemical patt

文章

DeepAc4C:一种由物理化学模式和分布式表示信息组成的混合特征的卷积神经网络模型,用于识别mRNA中的n4 -乙酰胞苷

期刊

Bioinformatics

背景

n4 -乙酰胞苷(N4-acetylcytidine, ac4C)是真核RNA中唯一的乙酰化修饰,与多种人类疾病相关。ac4C的实验室鉴定由于样品水解和成本高等因素而比较复杂。遗憾的是,现有的识别ac4C的计算方法并没有达到令人满意的性能

结果

作者开发了一种新型工具DeepAc4C,该工具使用卷积神经网络(cnn)识别ac4C,该网络使用由物理化学模式和分布式核酸表示组成的混合特征。我们的结果表明,提出的模型取得了更好的和更平衡的性能比现有的预测。此外,我们评估了特定特征对模型预测的影响及其交互作用。我们发现了几个与ac4C相关的有趣的序列基序。

相关链接

网站服务: https://ac4c.webmalab.cn/
源代码:https://github.com/wangchao-malab/DeepAc4C
数据:https://zenodo.org/record/5138047#.YgEG1-pBw2w

相关工作

PACES: prediction of N4-acetylcytidine (ac4C) modi-
fication sites in mRNA (2019 Zhao)

XG-ac4C: identification of N4-acetylcytidine (ac4C) in
mRNA using eXtreme gradient boosting with electron-ion interaction pseu-dopotentials. (Alam,W. et al. (2020)

方法

在这里插入图片描述
主要分为三个步骤:
1、序列预处理
2、序列编码和特征降维
3、特征组合、模型训练及评估

数据收集及预处理

在本研究中,作者旨在识别人类mRNA中的ac4c位点。
数据获取:http://www.rnanut.net/paces/
该数据集也被XG-ac4C模型所使用。
数据集有2134个ac4c位点基因组成(包含正负样本),这些数据都已经过高通量测序acrp -seq验证。

训练集:
由1160个正样本和10855个负样本构成。

独立测试集:
由469个正样本和4343个负样本构成。

由于可能存在冗余问题,使得PACE和XG-ac4C预测存在过拟合问题。作者使用CD-HIT软件消除了样本冗余,阈值为0.4。

** 最终 **
所得到的样本情况如下:
训练集:
1148个正样本,5439个负样本

独立测试集:
467个正样本,2151个负样本

PACES和XG-ac4C仅仅ROC和PRC两个评价指标对

作者生成了10个平衡数据集用于训练和测试(图1A)。因此,每个训练子集和一个测试子集分别由1148个和467个正样本组成,并从相应的负数据集中随机选取等量的负样本。以下简称10个平衡训练数据集TD1, TD2, … … …TD10

特征提取

1:物理化学特征编码
Kmer、
三核苷酸的电子-离子相互作用赝势(PseEIIP)
k-spaced核酸对组成(CKSNAP)、
序列相关伪二核苷酸组成(SCPseDNC)
、序列相关伪三核苷酸组成(SCPseTNC)、
伪k-tupler组成(PseKNC)。


Kmer:
定义为k邻近核酸的出现频率。

PseEIIP
根据归一化三核苷酸频率和四种核苷酸的电子能量(A: 0.1260, C: 0.1340, G: 0.0806, T: 0.1335)计算出三核苷酸的离域电子能量。

CKSNAP
CKSNAP计算由任意数量(k)的核酸对的频率。

其余三种编码用于挖掘序列顺序信息和有效性。PseKNC基于三核苷酸发生频率和6个理化指标(rise、roll、shift、slide、tilt、twist)表征序列的连续局部序列信息和全局序列信息。SCPseDNC和SCPseTNC类似于PseKNC。SCPseDNC考虑了二核苷酸理化性质的串联相关性,SCPseTNC考虑了三核苷酸理化性质的串联相关性。

2、词嵌入
首先将序列进行长度为K,步长为1进行切割构建语料库,随后通过Word2Vec嵌入成固定维度的向量。

特征最优化及降维

6个物理化学特征描述符中的5个特征维数取决于相关参数。为了使每个描述符的有效性最大化,对这五个参数进行了优化。各参数的搜索范围如补充表S1所示。采用支持向量机(SVM)算法进行基于10倍交叉验证的模型训练和评估。
采用基于F-score的特征重要度排序和基于精度(ACC)的序列前向搜索(SFS)两步特征优化方法来选择最优的特征子集

模型训练与评估

每个训练数据集进一步划分为子训练集(90%的训练数据集)和验证集(10%的训练数据集)。因此,用于模型训练、验证和测试的样本数分别为2066、230和934。利用子训练集对模型进行最优参数拟合,如补充表S2所示。验证集用最合适的参数验证模型的性能,测试数据用于提供最终模型的无偏性能评估。

评定指标
在这里插入图片描述

六个物理化学描述符中的五个特征向量维数由算法参数确定。为了使每个描述符尽可能具有信息,这些参数在用于特征选择之前进行了优化。参数搜索范围和精度见补充表S1。为了降低计算复杂度,提高模型性能,采用F-scores和SFS进行特征选择。
在TD1上进行参数优化和特征选择。然后,为了计算方便,我们将最优参数应用到其他9个数据集。
在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值