CHIP-seq流程学习笔记(11)-使用GSEA软件进行GSEA分析

这篇博客详细介绍了如何使用GSEA软件进行GSEA分析,主要包括准备geneset文件(.gmx)、gene表达值文件(FPKM值.txt)和分组信息文件(.cls),以及在GSEA软件中设置参数和运行分析的过程。
摘要由CSDN通过智能技术生成

参考文章:GSEA学习笔记

老菜鸟做了几次GSEA分析,现在还没完全搞明白,之前写的记录有些杂乱,这里重新整理一下,以便以后学习。

1.使用GSEA软件进行绘图需要准备的文件。

该分析需要使用三个输入文件,分别是:

geneset文件:格式为.gmx,我经常用到的是自定义的,本次记录中使用的是ChIP-seq中鉴定出来的peak所对应的gene。

gene表达值文件:格式为.txt,本次用到的是RNA-seq中各样品的表达值FPKM;

分组信息:格式为.cls,一般自己制作,对分组、样品信息进行说明。

2. 准备gene表达值文件即FPKM值文件

需要使用的是RNA_seq中,各组样本所有的gene对应的FPKM值,因为各样本可能gene_list不一致,所以需要使用intersect函数先取交集,再合并保存输出。

#做差异分析时需要使用全部差异基因的表达值
#重新提取全部差异基因的表达值FPKM

#关于FPKM值的说明
#在绘制heatmap热图时,需要使用差异基因所对应的FPKM值,该值的获取有几个办法:
#利用Stringtie的-A参数直接获得
#利用DESeq2的-FPKM参数由count转化获得
#利用ballgown包进行转化获得
#本次采用edgeR的方法获得

#清空环境变量
rm(list=ls())
#获取当前工作目录
getwd()

#对RNA_seq_2018_08_16各样品进行处理
##设置工作目录
setwd("G:/dongfeng/RNA-seq/2018_08_16/gene_tab/")
##将RNA_seq_2018_08_16分析得到的FPKM数据文件导入当前工作环境中
KD_scr_1.tab <- read.csv("G:/dongfeng/RNA-seq/2018_08_16/gene_tab/KD_scr_1.gene.tab",sep = "\t", header = TRUE)
KD_sh3_1.tab <- read.csv("G:/dongfeng/RNA-seq/2018_08_16/gene_tab/KD_sh3_1.gene.tab",sep = "\t", header = TRUE)
KD_sh4_1.tab <- read.csv("G:/dongfeng/RNA-seq/2018_08_16/gene_tab/KD_sh4_1.gene.tab",sep = "\t", header = TRUE)
##将数据中的FPKM值进行提取并更改对应的列名称
KD_scr_1.FPKM <- KD_scr_1.tab[,c(1,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值