参考文章:GSEA学习笔记
老菜鸟做了几次GSEA分析,现在还没完全搞明白,之前写的记录有些杂乱,这里重新整理一下,以便以后学习。
1.使用GSEA软件进行绘图需要准备的文件。
该分析需要使用三个输入文件,分别是:
geneset文件:格式为.gmx,我经常用到的是自定义的,本次记录中使用的是ChIP-seq中鉴定出来的peak所对应的gene。
gene表达值文件:格式为.txt,本次用到的是RNA-seq中各样品的表达值FPKM;
分组信息:格式为.cls,一般自己制作,对分组、样品信息进行说明。
2. 准备gene表达值文件即FPKM值文件
需要使用的是RNA_seq中,各组样本所有的gene对应的FPKM值,因为各样本可能gene_list不一致,所以需要使用intersect函数先取交集,再合并保存输出。
#做差异分析时需要使用全部差异基因的表达值
#重新提取全部差异基因的表达值FPKM
#关于FPKM值的说明
#在绘制heatmap热图时,需要使用差异基因所对应的FPKM值,该值的获取有几个办法:
#利用Stringtie的-A参数直接获得
#利用DESeq2的-FPKM参数由count转化获得
#利用ballgown包进行转化获得
#本次采用edgeR的方法获得
#清空环境变量
rm(list=ls())
#获取当前工作目录
getwd()
#对RNA_seq_2018_08_16各样品进行处理
##设置工作目录
setwd("G:/dongfeng/RNA-seq/2018_08_16/gene_tab/")
##将RNA_seq_2018_08_16分析得到的FPKM数据文件导入当前工作环境中
KD_scr_1.tab <- read.csv("G:/dongfeng/RNA-seq/2018_08_16/gene_tab/KD_scr_1.gene.tab",sep = "\t", header = TRUE)
KD_sh3_1.tab <- read.csv("G:/dongfeng/RNA-seq/2018_08_16/gene_tab/KD_sh3_1.gene.tab",sep = "\t", header = TRUE)
KD_sh4_1.tab <- read.csv("G:/dongfeng/RNA-seq/2018_08_16/gene_tab/KD_sh4_1.gene.tab",sep = "\t", header = TRUE)
##将数据中的FPKM值进行提取并更改对应的列名称
KD_scr_1.FPKM <- KD_scr_1.tab[,c(1,