上回提到TCGA的一个下载数据库UCSC Xena数据库:
今天分享一个TCGA分析的数据库——GEPIA,网址是:GEPIA (Gene Expression Profiling Interactive Analysis)
下面我们以一个基因——AURKA为例子,看看这个数据库如何使用。
1. 先看看这个基因的表达谱
选择感兴趣的癌症:
这里我们选择所有癌症:
GEPIA可以TCGA数据库自己的肿瘤组织和正常组织进行比较,也可以匹配GTEX数据库进行比较,关于GTEX的介绍和下载,下次再说。点击plot,来看看结果:
可以看到,AURKA这个基因在多种癌症中是高表达的,高表达且有意义的癌症,会标为红色,低表达的标位绿色。如果研究泛癌的话,这张图就可以放文章里面。
下面再看单个癌症中AURKA的表达:
选择BLCA膀胱癌看看:
左下角可以设置阈值,即logFC和P值,这里选择logFC是1,即如果肿瘤组和正常组中,AURKA的表达变化数超过两倍,就有意义。当然这个条件也可以放宽,比如设置logFC为0.5.
可以看到,AURKA在膀胱癌中是高表达的。
下面看一下AURKA表达和肿瘤分期的情况:
点击Stage plot:
结果没有意义,说明AURKA表达与膀胱癌进展无关。
当然,这只是数据库的结果,如果有自己的数据支持,或者别的数据支持,非要研究这个基因也未尝不可。
下面是多个基因的表达进行比较:
不过这个图不是这么好看。
2. 看预后
左下角可以选择无复发生存和总体生存,还可以选择合适的cutoff值,不过合格cut-off值会删除样本,不太可靠。
选择quatile以后,可以看到,他删除了中间一半的样本。
所以我一般不会选这个确定cut-off值,确定基因最适的cut-off值,请看之前的一篇文章:
选择最适cut-off值的原因及X-tile的使用_李京弦的博客-CSDN博客_xtile怎么得到cutoff值
此外,可以选择某个癌症中与生存有关的所有基因:
3. 看差异表达基因在染色体上的分布
不过这张图没有什么太大的价值,毕竟不知道这些差异表达基因是谁。