基础的常用的生信分析方法

最新推荐文章于 2024-04-05 20:42:44 发布

生信小白菜儿

最新推荐文章于 2024-04-05 20:42:44 发布

阅读量3.3k

点赞数 5

文章标签：数据库数据分析

本文链接：https://blog.csdn.net/weixin_69556916/article/details/131854086

版权

1、GO分析

GO(Gene Ontology，基因本体论)是基因本体论联合会建立的一个数据库，把基因的功能分成了三个部分分别是：细胞组分（cellular component, CC）、分子功能（molecular function, MF）、生物过程（biological process, BP）。利用GO数据库，我们就可以得到我们的目标基因在CC, MF和BP三个层面上，主要和什么有关。

2、KEGG分析

KEGG数据库：除了对基因本身功能的注释，我们也知道基因会参与人体的各个通路，基于人体通路而形成的数据库就是通路相关的数据库。而KEGG就是通路相关的数据库的一种。其实通路数据库有很多，类似于wikipathway，reactome都是相关的通路数据库。只是因为KEGG比较被人熟知，所以基本上都做这个分析的。

KEGG由三个数据库组成：

GENES：储存基因组信息，包括完整和部分测序的基因组序列，[从ncbi的GeneBank中搜集而来]；

pathway：用于表示相互作用分子网络的高阶函数，储存高级的功能信息；

LIGAND：用于化学品收集，包含关于化学物质、酶分子、酶反应等信息；

3、GSEA分析（基因集富集分析）

GSEA分析有三个特点：分析的基因集合而不是单个基因、将基因与预定义的基因集进行比较、富集分析。

4、GWAS（全基因组关联分析）

GWAS（全基因组关联分析）是对个体全基因组的基因变异进行观察的实验，目的在于探究是否有基因变异与某个特性相关。GWAS一般关注单核苷酸多态性（SNPs）和人类疾病的关系，理论基础是连锁不平衡理论，该理论假设观察到的SNP和真正的致病基因有着联系。当某一种SNP在患有某种疾病的人群中特别频繁时，相关的基因标记了人类基因的一个区域，真正的致病基因就在该区域中。

精确的表型检测是关联分析的关键，GWAS对数量性状和质量性状都适用。

数量性状：多基因控制，能够测量得到具体数值，符合正态分布；考虑到数量性状受环境影响大，建议将所有材料在同一环境下培育或养殖，或者用多年多点的数据分开分析后综合结果或取BLUP值作为性状值进行关联分析。
质量性状：单基因控制，无法用具体数值衡量，可转换成0、1等表示，需注意每个群体选取近似的样本。
分级性状：表型分布类似质量性状，但实际受多基因控制（数量性状），如抗性性状，因此需要提供每一个个体精确的测量数据。
多指标性状：有多个指标可以同时度量时，找出代表原表型数据变异的主成分因子，作为关联分析的表型数据。

标记开发与分型

实验室常用标记（SSR等）
SNP芯片
NGS开发SNP、small Indel、CNV、SV标记

传统的GWAS研究只计算单个SNP位点与表型之间的关联性，然后再用Bonferroni校正，通过给定的阈值，筛选出显著的SNP位点。

这样会存在两个问题，第一、Bonferroni校正非常严格，很多对表型也有贡献的位点会因为达不到阈值而被过滤掉。第二、单个位点对表型的解释度很低，尤其是对于高血压这种多基因控制的表型，用一个个单独的位点解释高血压患病风险，显得很单薄。

可以看出GWAS的缺点是忽略了多基因的作用。只有达到阈值的基因变异能被观察到，结果只解释了一小部分表型变异，但是在阈值下的变异也对表型变异做出了贡献。对很多常见的疾病，多基因遗传力比单基因变异发挥更大的作用，这里多基因遗传力包括了很多发挥微小效应的常见基因变异。

5、PRS（多基因风险评分）

PRS(Polygenic risk score)也叫PGS（Polygenic score）是在GWAS基础上发展起来的，PRS（多基因风险评分）是将与某种表型相关联的一组风险SNP的基因型效应加权来计算个体对该种表型（多指患病表型）的倾向的遗传学方法。通过估计多基因变异的累积效应改善了GWAS的缺点。

通俗来说就是，某个人在某项疾病上的多基因风险评分（PRS）越高，此人在以后的生活中患有该疾病的概率越大。但PRS反映的只是一个概率，不是绝对的。绝大部分疾病的发生都是遗传和环境（比如吸烟、饮酒、空气污染等等）交互作用的结果，一般只有当遗传风险和环境风险同时很高时，一个人才会真正发病。因此，PRS的意义就是：我们可以通过较早改变环境中的不利因素来达到遏制高遗传风险疾病的发生。

多基因风险评分主要针对的是多基因遗传疾病，比如二型糖尿病、非酒精性脂肪肝、冠心病、哮喘和一些癌症等，这类疾病的特点是缺乏主效基因（对疾病发生发展有巨大作用的基因）并且可以通过改变环境因素来遏制其发生发展。

总结：多基因风险评分（PRS）通过汇总从全基因组关联研究中确定的多个遗传变异的信息来估计个体复杂特征和疾病的遗传可能性。用于预测疾病发生概率。

PRS的三种计算方法：①累加计算法、②平均值法、③标准化法

6、全转录组关联分析（TWAS）

全转录组关联分析（transcriptome-wide association studies，TWAS）是研究与变异性状关联的潜在基因调控机制的宝贵工具。具体来说，TWAS整合了GWAS和基于一组共同变异的表达图谱研究，旨在确定其GReX与表型相关的基因。目前已经开发了各种方法或软件（如PrediXcan，S-prediXcan，Fusion，UTMOST）来执行TWAS综合分析。为了解决不同的生物学问题，每一种分析方法或者软件都有不同的建模假设。在生物医学研究中，TWAS已经成功应用于多种疾病，如精神分裂症，乳腺癌，前列腺癌，低密度脂蛋白胆固醇和克罗恩氏病等疾病中。

TWAS分析优势

与全基因组关联研究相比，TWAS研究策略具有以下优点：

与SNP相比，基于基因的分析具有更低的多重比较压力。分析结果以特定基因而非SNP的形式呈现，基因的生物学意义更为直接，便于后续的功能研究和结果转化。
GTEx数据库提供了极为丰富的基因组和转录组数据。研究人员可以使用各种人体组织和细胞数据作为参考面板来构建模型。从GWAS到TWAS的过渡无需额外的样本测试即可实现。
TWAS研究中使用了越来越成熟的人工智能分析方法，并且预测结果变得越来越准确。

TWAS 应用领域