生物信息学数据分析：从数据集创建到模型性能评估-CSDN博客

本文链接：https://blog.csdn.net/weixin_44540733/article/details/136526110

一、创建数据集

二、数据预处理

三、创建模型

四、对比实验

一、创建数据集

根据相应的项目下载相应的数据，并将数据按照一定的要求进行划分为训练接和测试集(一般为7:3)。

下面是一些常用的数据库：

MDB: Microbiome Database for sequencing, research, project - CNGBdb 深圳国家基因库的宏基因组数据集

MGnify - EBI 欧洲生物信息研究所宏基因组数据库

National Center for Biotechnology Information 美国国际生物信息数据库

若使用多个数据库进行合并数据集，建议对数据集进行去冗余。

二、数据预处理

一般来说生物信息学数据分为核苷酸序列、氨基酸序列或蛋白质3D结构等。对于数据集的特征提取又可以分为传统数据特征提取和利用机器学习的方法进行特征提取两种。

2.1 传统方法的数据特征提取

①对于核苷酸序列，一般的方法为提取K-mer特征，或者生成GCR频率特征等。根据相关的项目提取特征进行训练，或者将多维特征进行融合，再或者根据不同的特征进行训练模型并比对从而选用适合模型的特征。

②对于氨基酸序列，一般的方法为提取PSSM蛋白质矩阵。

③对于蛋白质3D结构，一般采用机器学习的方法进行特征提取。

2.2 机器学习方法的数据特征提取

①对于核苷酸序列，一般的方法为应用机器学习模型对核苷酸序列进行特征提取，一般的提取出来的特征为核苷酸之间的高斯频率、欧式距离、d2距离等特征。

②对于氨基酸序列，一般的方法为应用大模型如ESM-2等进行提取特征。

③对于3D蛋白质结构，一般的方法为采用图模型如GCN、GNN等进行特征提取。

2.3 小小总结

数据特征的选择是根据具体的项目进行选择的，不一定哪种数据特征提取的方法会好，也可以采用多视图特征融合的方法进行训练模型，以提高模型的性能。

三、创建模型

根据自己的项目方向创建适应的模型，模型可以从github、csdn等网站上进行借鉴。具体的思路也可以搜索相关方向的论文收获模型编写思路。

常用的论文检索网站有pubmed、web of science 、知网、谷粉学术等。

四、对比实验

对比实验指下载该项目类似的程序代码，使用相同的数据集进行训练，然后对相同的指标进行比对。常用的指标有如下几种。

敏感性（Sensitivity, Sen，也称为召回率，Recall）、特异性（Specificity, Spe）、精准率（Precision, Pre）、F1分数、马修斯相关系数（Matthews correlation coefficient, MCC）以及准确率（Accuracy, Acc）。各个指标的公式如下：

其中，𝑇𝑃表示属于正样本，预测出来的结果中也属于正样本的数量，𝑇𝑁代表的是真实情况下为负样本，预测出来的也是负样本的数量，𝐹𝑃代表的是真实情况下属于负样本，然而预测出来的结果属于正样本的数量，𝐹𝑁代表的是预测为负样本的实际为正样本的数量。从上述四个指标衍生出来的其他指标解释如下：Sen（Recall）是指所有真实中预测对的占的比重，是表征模型预测正样本性能的指标，Spe是指实际为未知中预测正确的概率，是表征模型预测负样本性能的指标，Pre代表的是预测为已知的数据中，实际属于正样本的比例。F1、MCC、Acc都是综合性指标。

受试者工作特征曲线下面积（The area under the receiver operating characteristic（ROC） curve, AUC）用来评价本文最终模型的性能，该指标的取值范围在0和1之间。一般分类器的AUC值低于0.5代表其基本没有预测能力，所以通常情况下分类器的AUC指标的取值范围是0.5到1之间，且AUC的值越大，说明模型拟合的效果越好。与ROC曲线相对应的是精准率-召回率曲线（Precisionrecall curve, PR 曲线），基于精准率和召回率绘制。曲线是根据置信度对所有样本进行排序，置信度就是指该样本是正样本的概率，逐个样本选择阈值，在该样本之前的都属于正样本，该样本之后的都属于负样本，每个点计算一次对应的精准率和召回率，以此来绘制PR曲线，其中PR曲线下的面积称为AUPR（Area under PR curve）。