0. 简介:
火山图:一种表示特征差异表达的散点图。以基因的差异表达为例:x轴对应fold change
,y轴对应p-value
。
1. 绘图数据
https://gist.github.com/stephenturner/806e31fce55a8b7175af
前10行数据如下:
2. 绘图代码
2.1 数据处理
library(ggrepel)
library(ggplot2)
data_source <- read.table('C:\\Users\\Admin\\Desktop\\results.txt',header=TRUE)
# 更改data_source的列名称。
names(data_source) = c('Gene','log2FC','p_value','padj')
# 向data_Source中添加一列‘diffexpressed’,用作基因表达上下调的标签。
# 可以自定义上下调的界定界限
data_source$diffexpressed = 'No'
data_source$diffexpressed[data_source$log2FC > 0.6 & data_source$p_value < 0.05] = 'Up'
data_source$diffexpressed[data_source$log2FC < -0.6 & data_source$p_value < 0.05] = 'Down'
# 创建一个颜色标签表格,用于设置上下调基因的显色。
define_color = c('Red','Gray','Blue')
names(define_color) = c('Up','No','Down')
# 向data_source中添加一列'tags',用于显示所有上调和下调基因的名称。
data_source$tags = NA
data_source$tags[data_source$diffexpressed != 'No'] = data_source$Gene[data_source$diffexpressed != 'No']
# 在火山图中将某几个特定的基因显示出来
specific_label = subset(data_source, data_source$Gene %in% c('TBX5','SLC32A1','POU3F4'))
2.2 绘制图片
2.2.1 显示图片1(包含全部基因名称,但是由于名称过过多,只能显示出一部分)
P1 <- ggplot(data=data_source, aes(x=log2FC,y=-log10(p_value),col=diffexpressed)) +
geom_point() +
# scale_color_manual(),用于显示上下调基因的颜色。
scale_color_manual(values = define_color) +
# geom_text_repel(),用于将基因名称带上指示线显示出来。
geom_text_repel(label=data_source$tags) +
# geom_vline()和geom_hline(),用于绘制显示上下调基因界限的辅助线,线型为虚线。
geom_vline(xintercept = c(-0.6,0.6),color='red',linetype='dashed') +
geom_hline(yintercept = -log10(0.05),color='red',linetype='dashed') +
# theme_minimal(),用于设置图片背景主题。
theme_minimal()
结果1:
2.2.2 显示图片2(只标注特定的基因名称)
p2 <- ggplot(data=data_source, aes(x=log2FC,y=-log10(p_value),col=diffexpressed)) +
geom_point() +
# scale_color_manual(),用于显示上下调基因的颜色。
scale_color_manual(values = define_color) +
# geom_text_repel(),用于将基因名称带上箭头显示出来。
geom_text_repel(data=specific_label,
label=specific_label$tags,
box.padding=unit(7, "lines"),
point.padding=unit(3, "lines"),
segment.color = "green",
segment.size = 1,
arrow = arrow(length=unit(0.01, "npc"))) +
# geom_vline()和geom_hline(),用于绘制显示上下调基因界限的辅助线,线型为虚线。
geom_vline(xintercept = c(-0.6,0.6),color='red',linetype='dashed') +
geom_hline(yintercept = -log10(0.05),color='red',linetype='dashed') +
# theme_minimal(),用于设置图片背景主题。
theme_minimal()
结果2:
3. 参考资料
[1]. https://www.r-bloggers.com/2014/05/using-volcano-plots-in-r-to-visualize-microarray-and-rna-seq-results/#google_vignette
[2]. https://biocorecrg.github.io/CRG_RIntroduction/volcano-plots.html