生信项目流程

目录

一、创建数据集

二、数据预处理

三、创建模型

四、对比实验


一、创建数据集

根据相应的项目下载相应的数据,并将数据按照一定的要求进行划分为训练接和测试集(一般为7:3)。

下面是一些常用的数据库:

MDB: Microbiome Database for sequencing, research, project - CNGBdb  深圳国家基因库的宏基因组数据集

MGnify - EBI  欧洲生物信息研究所宏基因组数据库

National Center for Biotechnology Information  美国国际生物信息数据库

若使用多个数据库进行合并数据集,建议对数据集进行去冗余。

二、数据预处理

一般来说生物信息学数据分为核苷酸序列、氨基酸序列或蛋白质3D结构等。对于数据集的特征提取又可以分为传统数据特征提取和利用机器学习的方法进行特征提取两种。

2.1 传统方法的数据特征提取

①对于核苷酸序列,一般的方法为提取K-mer特征,或者生成GCR频率特征等。根据相关的项目提取特征进行训练,或者将多维特征进行融合,再或者根据不同的特征进行训练模型并比对从而选用适合模型的特征。

②对于氨基酸序列,一般的方法为提取PSSM蛋白质矩阵。

③对于蛋白质3D结构,一般采用机器学习的方法进行特征提取。

2.2 机器学习方法的数据特征提取

①对于核苷酸序列,一般的方法为应用机器学习模型对核苷酸序列进行特征提取,一般的提取出来的特征为核苷酸之间的高斯频率、欧式距离、d2距离等特征。

②对于氨基酸序列,一般的方法为应用大模型如ESM-2等进行提取特征。

③对于3D蛋白质结构,一般的方法为采用图模型如GCN、GNN等进行特征提取。

2.3 小小总结

数据特征的选择是根据具体的项目进行选择的,不一定哪种数据特征提取的方法会好,也可以采用多视图特征融合的方法进行训练模型,以提高模型的性能。

三、创建模型

根据自己的项目方向创建适应的模型,模型可以从github、csdn等网站上进行借鉴。具体的思路也可以搜索相关方向的论文收获模型编写思路。

常用的论文检索网站有pubmed、web of science 、知网、谷粉学术等。

四、对比实验

对比实验指下载该项目类似的程序代码,使用相同的数据集进行训练,然后对相同的指标进行比对。常用的指标有如下几种。

敏感性(Sensitivity, Sen,也称为召回率,Recall)、特异性(Specificity, Spe)、精准率(Precision, Pre)、F1分数、马修斯相关系数(Matthews correlation coefficient, MCC)以及准确率(Accuracy, Acc)。各个指标的公式如下:

其中,𝑇𝑃表示属于正样本,预测出来的结果中也属于正样本的数量,𝑇𝑁代表的是真实情况下为负样本,预测出来的也是负样本的数量,𝐹𝑃代表的是真实情况下属于负样本,然而预测出来的结果属于正样本的数量,𝐹𝑁代表的是预测为负样本的实际为正样本的数量。从上述四个指标衍生出来的其他指标解释如下:Sen(Recall)是指所有真实中预测对的占的比重,是表征模型预测正样本性能的指标,Spe是指实际为未知中预测正确的概率,是表征模型预测负样本性能的指标,Pre代表的是预测为已知的数据中,实际属于正样本的比例。F1、MCC、Acc都是综合性指标。

受试者工作特征曲线下面积(The area under the receiver operating characteristic(ROC) curve, AUC)用来评价本文最终模型的性能,该指标的取值范围在0和1之间。一般分类器的AUC值低于0.5代表其基本没有预测能力,所以通常情况下分类器的AUC指标的取值范围是0.5到1之间,且AUC的值越大,说明模型拟合的效果越好。与ROC曲线相对应的是精准率-召回率曲线(Precisionrecall curve, PR 曲线),基于精准率和召回率绘制。曲线是根据置信度对所有样本进行排序,置信度就是指该样本是正样本的概率,逐个样本选择阈值,在该样本之前的都属于正样本,该样本之后的都属于负样本,每个点计算一次对应的精准率和召回率,以此来绘制PR曲线,其中PR曲线下的面积称为AUPR(Area under PR curve)。

### 关于息学工具vg的使用教程、文档、下载、安装、配置及示例 #### 使用教程与文档获取 对于像vg这样的息学工具,官方GitHub仓库通常是寻找最全面资源的最佳地点。大多数情况下,在项目的README文件中会提供详细的介绍以及链接指向更深入的技术文档和使用指南。此外,很多活跃维护的开源项目也会设立专门的Wiki页面来帮助新用户快速上手[^1]。 #### 下载途径 为了获得最新的版本并参与到社区讨论之中,建议直接从vg的GitHub主页克隆源码库或者下载发布的压缩包形式的稳定版软件。这种方式不仅可以确保得到经过充分测试的功能集合,而且还能方便追踪任何已知问题及其修复进展。 #### 安装过程概述 考虑到不同用户的计算环境差异较大(比如Linux, macOS或是Windows),具体的编译依赖项可能会有所不同。一般而言,按照给定的操作系统特定说明依次安装必要的构建工具链(如CMake)、编程语言解释器/编译器和支持库之后就可以顺利地完成本地化部署工作了[^2]。 ```bash git clone https://github.com/vgteam/vg.git cd vg mkdir build && cd build cmake .. make -j$(nproc) sudo make install ``` 这段脚本展示了如何利用Git命令拉取最新代码,并通过CMake成适合当前平台的目标文件进而实现自动化组装流程的一部分操作;最后一步则是将可执行二进制放置到系统的PATH路径下以便随时调用。 #### 初始设置与验证 初次运行前应当确认所有前置条件均已满足,这包括但不限于Python版本兼容性检查、内存大小评估等硬件层面考量因素。同时,可以通过简单的命令行参数组合来进行功能性的自我检测,以此证明安装无误且能够正常响应输入请求[^3]。 ```bash vg construct -r example.fasta -v example.vcf.gz -p > graph.vg vg stats graph.vg ``` 上述例子演示了创建一个新的图结构并将统计摘要打印出来的基本交互方式,其中`example.fasta`代表参考序列而`example.vcf.gz`则包含了变异数据集的息。 #### 实际应用场景举例 当涉及到具体科研任务时,例如基因组重测序分析中的结构变异发现环节,可以借助vg强大的图形表示能力去描绘复杂的遗传变化模式。配合其他辅助组件一起使用的话,则能进一步提升工作效率和服务质量,为后续解读提供更多有价值的线索支持[^4]。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值