零基础入门生信数据分析——导读

呆猪儿

已于 2024-04-24 16:46:57 修改

阅读量1.8k

点赞数 24

分类专栏：生信之转录组——上游分析生信之转录组——下游分析生信之转录组——数据可视化文章标签：学习方法 r语言数据分析数据库数据挖掘需求分析大数据

于 2024-02-14 20:14:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_49878699/article/details/135466844

版权

生信之转录组——下游分析同时被 3 个专栏收录

8 篇文章 70 订阅

订阅专栏

生信之转录组——上游分析

6 篇文章 69 订阅

订阅专栏

生信之转录组——数据可视化

3 篇文章 2 订阅

订阅专栏

零基础入门生信数据分析——导读

生信数据分析，即生物信息学数据分析，是一个涵盖了生物学、计算机科学、数学和统计学等多个领域的交叉学科。它主要利用计算机算法和统计方法对生物学数据进行处理、分析和解释，以揭示生物分子、细胞、组织和生物体等各个层次的生物学规律和机制。

本帖主要是为生信数据分析的各个分析点提供跳转链接（简单说就是提供了一个目录供大家选择自己想要的知识点可以直接跳转）

关联的生信数据分析的分析点包括但不限于：转录组上游分析，数据处理，差异分析，WGCNA，机器学习算法，预后模型构建，PPI，孟德尔随机化，单细胞分析等。（当然目前更新的内容还没那么多，具体的分析点可见下方信息，点击可直接跳转到相关分析点）

简单介绍下生信的思路：

生信分析可以分为两大类：上游分析和下游分析。

（1）上游分析就是对公司测序得到的fastqc文件进行质控，比对，表达定量等过程，最终得到了基因原始的表达矩阵（列为样本，行为基因，此时并不知道该数据能反应什么信息）。

（2）下游分析又被称为是数据挖掘过程，上游分析得到的基因表达矩阵之后，研究者自然想从基因的表达与疾病/性状相关联，获取到发生变化的那部分基因，并研究其可能具有的功能。根据这个需求，自然而然地衍生出来了很多的算法和方法，比如说：差异分析，富集分析…等。

个人对于生信下游分析的总结就是：通过各种算法一步步筛选并缩小基因范围，最后针对几个比较重要的基因（3-5个）研究其功能及潜在的机制。

那么就有小伙伴会问了：如何挑选重要的基因？？或者说是我怎么知道哪些基因比较重要？？

举个栗子： 一开始拿到表达矩阵有上万个基因，这些基因在不同样本中表达都不一样，尤其是疾病组和对照组间，绝对会存在一部分基因差异变化非常大，而研究者重点要关注的就是这部分差异变化较大的基因，因此就要用到差异分析（DESeq2，limma等）做筛选，这样最终的结果就是从上万个基因中挑选出来了部分基因（几十到几百不等），这部分基因相对于全部基因来说就是比较重要的那部分。

举这个栗子就很好体现了筛选并缩小基因范围这句话，其他的算法大多也都是干这种事，比如：交集韦恩图，机器学习，单多因素cox等。

那么假如现在经过重重筛选得到了几个重要的基因，接下来就需要结合其他的算法来分析这些基因所具有的功能，比如：富集分析，相关性分析，靶向药物预测…等，而这就是在研究基因所具有的功能及其潜在机制。

注：如果基础薄弱的同学可以从转录组上游分析开始看起，上游分析和下游分析其实都是串起来的，只有先有了上游，才能进一步去分析

1. 转录组上游分析
- 1.1 软件的安装
- 1.2 数据的准备
- 1.3 质控及数据过滤
- 1.4 序列比对
- 1.5 表达定量
1. 转录组下游分析
- 2.1 数据处理
  - 2.1.1 自测序数据
  - 2.1.2 TCGA数据库
  - 2.1.3 GEO数据库——芯片数据
  - 2.1.4 GEO数据库——高通量测序数据
- 2.2 差异分析
  - 2.2.1 limma差异分析
  - 2.2.2 DESeq2差异分析
  - 2.2.3 火山图绘制（非免费）
  - 2.2.4 热图绘制（非免费）
- 2.3 GO+KEGG富集分析
  - 2.3.1 GO+KEGG富集分析
  - 2.3.2 常规柱状图，点状图
  - 2.3.3 高级绘图——树形图
  - 2.3.4 高级绘图——弦图
  - 2.3.5 高级绘图——圆圈图
  - 2.3.6 高级绘图——网络图

注：黑色的目录表示还没更新的帖子（后面会持续更新）

关注

24
点赞
踩
30

收藏

觉得还不错? 一键收藏
打赏
3
评论
零基础入门生信数据分析——导读

专栏的目录，可以直接通过各个分析点跳转到相关帖子，方便查找
复制链接

扫一扫

专栏目录

呆猪儿 CSDN认证博客专家 CSDN认证企业博客

码龄4年

15: 原创

1122: 周排名

5万+: 总排名

6万+: 访问

: 等级

610: 积分

5652: 粉丝

369: 获赞

131: 评论

716: 收藏

私信

关注

热门文章

分类专栏

最新评论

零基础入门转录组分析——数据处理（TCGA数据库）
总会有办法的·: 老师，导入基因注释文件，对基因注释文件处理是为什么
零基础入门转录组分析——数据处理（GEO数据库——高通量测序数据）
yyyyyooolll: 请问测序数据和芯片数据是不是下载方法不同，后面的处理方法是一样的呀
生信数据分析——绘制差异热图
weixin_43003273: 请问大佬，高通量测序数据和芯片数据的热图绘制有没有不同，也可以这样处理吗
零基础入门转录组分析——数据处理（GEO数据库——高通量测序数据）
lijin97: 老师您好，这里我一直不明白为什么要用平均值重新排列 dat <- dat %>% merge(probe2symbol, by='ID')%>% dplyr::select(-ID)%>% ## 去除多余信息 dplyr::select(symbol, everything())%>% ## 重新排列 mutate(rowMean = rowMeans(.[grep('GSM', names(.))]))%>% ## 求出平均数 arrange(desc(rowMean))%>% ## 把表达量的平均值从大到小排序 distinct(symbol, .keep_all = T)%>% ## symbol留下第一个 dplyr::select(-rowMean)%>% ## 反向选择去除rowMean这一列 tibble::column_to_rownames(colnames(.)[1]) ## 把第一列变成行名并删除
零基础入门转录组分析——数据处理（GEO数据库——芯片数据）
lijin97: 呆老师，请问这里为什么要求出平均数，并把表达量的平均值从大到小排序

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

呆猪儿 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。