零基础入门生信数据分析——导读
生信数据分析,即生物信息学数据分析,是一个涵盖了生物学、计算机科学、数学和统计学等多个领域的交叉学科。它主要利用计算机算法和统计方法对生物学数据进行处理、分析和解释,以揭示生物分子、细胞、组织和生物体等各个层次的生物学规律和机制。
本帖主要是为生信数据分析的各个分析点提供跳转链接(简单说就是提供了一个目录供大家选择自己想要的知识点可以直接跳转)
关联的生信数据分析的分析点包括但不限于:转录组上游分析,数据处理,差异分析,WGCNA,机器学习算法,预后模型构建,PPI,孟德尔随机化,单细胞分析等。(当然目前更新的内容还没那么多,具体的分析点可见下方信息,点击可直接跳转到相关分析点)
简单介绍下生信的思路:
生信分析可以分为两大类:上游分析和下游分析。
(1)上游分析就是对公司测序得到的fastqc文件进行质控,比对,表达定量等过程,最终得到了基因原始的表达矩阵(列为样本,行为基因,此时并不知道该数据能反应什么信息)。
(2)下游分析又被称为是数据挖掘过程,上游分析得到的基因表达矩阵之后,研究者自然想从基因的表达与疾病/性状相关联,获取到发生变化的那部分基因,并研究其可能具有的功能。根据这个需求,自然而然地衍生出来了很多的算法和方法,比如说:差异分析,富集分析…等。
个人对于生信下游分析的总结就是:通过各种算法一步步筛选并缩小基因范围,最后针对几个比较重要的基因(3-5个)研究其功能及潜在的机制。
那么就有小伙伴会问了:如何挑选重要的基因??或者说是我怎么知道哪些基因比较重要??
举个栗子: 一开始拿到表达矩阵有上万个基因,这些基因在不同样本中表达都不一样,尤其是疾病组和对照组间,绝对会存在一部分基因差异变化非常大,而研究者重点要关注的就是这部分差异变化较大的基因,因此就要用到差异分析(DESeq2,limma等)做筛选,这样最终的结果就是从上万个基因中挑选出来了部分基因(几十到几百不等),这部分基因相对于全部基因来说就是比较重要的那部分。
举这个栗子就很好体现了筛选并缩小基因范围这句话,其他的算法大多也都是干这种事,比如:交集韦恩图,机器学习,单多因素cox等。
那么假如现在经过重重筛选得到了几个重要的基因,接下来就需要结合其他的算法来分析这些基因所具有的功能,比如:富集分析,相关性分析,靶向药物预测…等,而这就是在研究基因所具有的功能及其潜在机制。
注:如果基础薄弱的同学可以从转录组上游分析开始看起,上游分析和下游分析其实都是串起来的,只有先有了上游,才能进一步去分析
-
- 转录组上游分析
-
- 转录组下游分析
- 2.1 数据处理
- 2.1.1 自测序数据
- 2.1.2 TCGA数据库
- 2.1.3 GEO数据库——芯片数据
- 2.1.4 GEO数据库——高通量测序数据
- 2.2 差异分析
- 2.2.1 limma差异分析
- 2.2.2 DESeq2差异分析
- 2.2.3 火山图绘制(非免费)
- 2.2.4 热图绘制(非免费)
- 2.3 GO+KEGG富集分析
- 2.3.1 GO+KEGG富集分析
- 2.3.2 常规柱状图,点状图
- 2.3.3 高级绘图——树形图
- 2.3.4 高级绘图——弦图
- 2.3.5 高级绘图——圆圈图
- 2.3.6 高级绘图——网络图
注:黑色的目录表示还没更新的帖子(后面会持续更新)