分享分析TCGA的数据库——GEPIA（一）

楷然教你学生信

已于 2022-03-31 01:16:35 修改

阅读量1.5w

点赞数 10

分类专栏：生物信息学相关数据库介绍文章标签： r语言数据挖掘

于 2022-03-31 01:00:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46500027/article/details/123839795

版权

生物信息学相关数据库介绍专栏收录该内容

14 篇文章

订阅专栏

本文通过实例演示如何利用GEPIA数据库分析TCGA中的基因表达数据。以AURKA基因为例，展示了如何查看基因表达谱、分析预后以及观察基因表达与肿瘤分期的关系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

上回提到TCGA的一个下载数据库UCSC Ｘena数据库：

分享一个TCGA数据库_李京弦的博客-CSDN博客

今天分享一个TCGA分析的数据库——GEPIA，网址是：GEPIA (Gene Expression Profiling Interactive Analysis)

下面我们以一个基因——AURKA为例子，看看这个数据库如何使用。

1. 先看看这个基因的表达谱

选择感兴趣的癌症：

这里我们选择所有癌症：

GEPIA可以TCGA数据库自己的肿瘤组织和正常组织进行比较，也可以匹配GTEX数据库进行比较，关于GTEX的介绍和下载，下次再说。点击plot，来看看结果：

可以看到，AURKA这个基因在多种癌症中是高表达的，高表达且有意义的癌症，会标为红色，低表达的标位绿色。如果研究泛癌的话，这张图就可以放文章里面。

下面再看单个癌症中AURKA的表达：

选择BLCA膀胱癌看看：

左下角可以设置阈值，即logFC和P值，这里选择logFC是1，即如果肿瘤组和正常组中，AURKA的表达变化数超过两倍，就有意义。当然这个条件也可以放宽，比如设置logFC为0.5.

可以看到，AURKA在膀胱癌中是高表达的。

下面看一下AURKA表达和肿瘤分期的情况：

点击Stage plot：

结果没有意义，说明AURKA表达与膀胱癌进展无关。

当然，这只是数据库的结果，如果有自己的数据支持，或者别的数据支持，非要研究这个基因也未尝不可。

下面是多个基因的表达进行比较：

不过这个图不是这么好看。

2. 看预后

左下角可以选择无复发生存和总体生存，还可以选择合适的cutoff值，不过合格cut-off值会删除样本，不太可靠。

选择quatile以后，可以看到，他删除了中间一半的样本。

所以我一般不会选这个确定cut-off值，确定基因最适的cut-off值，请看之前的一篇文章：

选择最适cut-off值的原因及X-tile的使用_李京弦的博客-CSDN博客_xtile怎么得到cutoff值

此外，可以选择某个癌症中与生存有关的所有基因：

3. 看差异表达基因在染色体上的分布

不过这张图没有什么太大的价值，毕竟不知道这些差异表达基因是谁。

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

楷然教你学生信 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。