本文介绍ggplot2中常见的几种类型图的绘画,包括散点图、折线图、直方图、柱状图、时间序列图,由于ggplot2所用的数据格式是数据框类型的(Excel表格正常导入就是),非数据框格式的数据需先进行转换,可以利用函数data.frame()完成.
ggplot2画图的基本语法为:
ggplot(data = <你的数据>,aes(x = <x轴代表什么>, y = <y轴代表什么>))+
geom_point(<内写参数size:点的大小colour:点的颜色shape:形状fill:填充颜色>)+ <散点图>
geom_line()+ <线形图>
geom_bar()+ <柱状图>
geom_boxplot()<箱图>
简而言之就是想画什么图就是在确定好映射关系后,定义geom_即可
geom_ bar () 条形图
geom_ boxplot () 箱线图
geom_ density() 密度图
geom_ histogram() 直方图
geom_ hline() 水平线
geom_ jitter() 抖动点
geom_ line() 线图geom_ point () 散点图
geom_ rug() 地毯图
geom_ smooth() 拟合曲线
geom_ text () 文字注解
geom_ violin() 小提琴图
geom_ v1ine () 垂线
下面开始正文
散点图
这里用到的数据是R语言自带数据集diamonds
library (ggplot2)
diamond <- diamonds[sample(nrow(diamonds),2000),]
# p1 is carat~price
p1 <- ggplot(data = diamond,mapping = aes(x = carat, y = price))+
geom_point()+
labs(title = "p1",
caption = "数据来源:R语言自带数据集")
print(p1)
注意labs()里面的参数所对应的位置
图2是在图1的基础上增加一个分类依据,即在映射(mapping)中增加新的映射关系,这里是用颜色作为分类依据,所以添加 colour = color ,其中后面的color代表的是diamonds数据集中的color列
# p2 base on p1 ,add color as classification
p2 <- ggplot(data = diamond,mapping = aes(x = carat, y = price,colour = color))+
geom_point()+
labs(title = "p2",
caption = "数据来源:R语言自带数据集")
print(p2)
图3与图2类似,增加以cut为依据以不同形状展示
# p3 base on p1 ,add shape as classification
p3 <- ggplot(data = diamond,mapping = aes(x = carat, y = price,shape = cut))+
geom_point()+
labs(title = "p3",
caption = "数据来源:R语言自带数据集")
print(p3)
直方图
直方图(Histogram),又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况。
这里以卡方分布为例展示如何画直方图
#p4 直方图
chi_square <- rchisq(1000,5) #取自由度为5卡方分布的伪随机数
chi <- data.frame(X = chi_square)
p4 <- ggplot(data = chi,mapping = aes(x=X),binwidth = 30)+
geom_histogram(fill = "gray")+
labs(title = "p4",
caption = "卡方分布")
print(p4)
柱状图
柱状图也是平时生活中较常见的一类图形,首先简单构造一个数据集,再按照ggplot2的基本作图语法画即可
#p5 实际生活应用的较多的一类柱状图
city <- c("北京","上海","南京","广州","深圳","哈尔滨","青岛","兰州")
value <- c(150,100,-95,120,30,-60,85,75)
df1 <- data.frame(city = city,value = value)
p5 <- ggplot(data = df1,mapping = aes(x = city, y = value))+
geom_bar(stat = "identity",fill = "pink")+
labs(title = "p5",
caption = "数据来源:作者瞎编")
print(p5)
p6 <- ggplot(data = df1,mapping = aes(x = city, y = value))+
geom_bar(stat = "identity",fill = ifelse(df1$value>0,"pink","blue"))+
labs(title = "p6",
caption = "数据来源:作者瞎编")
print(p6)
在填充颜色fill这里,我们可以用一个ifelse语句来定义大于零小于零的填充颜色
语法为:ifelse(test,yes,no)
折线图
折线图是反映数据趋势的一类图 ,画出一张好看的折线图关键也是在于找好映射关系
p7 <- ggplot(data = BOD,mapping = aes(x=Time,y=demand))+
geom_line()+
geom_point()+
labs(title = "p7",
caption = "数据来源:R语言自带数据集")
print(p7)
这里geom_point()若不加就没有这个黑点,具体可以看p10
有时我们需要描述不同因素对同一事物的影响,这时就需要双折线图了,下面介绍如何在一张图上作出两条折线。
# ToothGrowth
df2 <- ToothGrowth[c(1,11,21,31,41,51),]
p8 <- ggplot(data = df2,mapping = aes(x=dose,y=len,group=supp,colour=supp))+
geom_line()+
geom_point()+
labs(title = "p8",
caption = "数据来源:R语言自带数据集")
print(p8)
这里只需要增加一个新的映射关系即可,比如这个数据是不同维生素的剂量对牙齿的影响,显然应该画出每种维生素的折线,即group = supp(以supp这一列为分类依据)
带回归拟合的折线图
有时候我们处理一些数据,这些数据是带趋势的,我们常常会用一元线性回归拟合的方法去处理这类数据,ggplot里也提供了现成的函数方便调用,以下是示例:
#线性拟合 置信区间
X <- 1:50
e <- rnorm(50,mean=0,sd=10)
Y <- 6.3 + 3.1*X + e
df3 <- data.frame(x=X,y=Y)
p9 <- ggplot(data = df3,mapping = aes(x=x,y=y))+
geom_point()+
geom_smooth(method = "lm",se=T)+
labs(title = "p9",
caption = "数据来源:y=6.3+3.1*x")
print(p9)
这里仅需添加geom_smooth()函数即可,method = "lm"表示用线性回归拟合,se = "T"表示显示置信区间。
method这里同样可以选择一般线性模型glm、一般加性模型gam和曲线loess,由于我这里构造数据是线性的所有用的是"lm"
时间序列图
#时间序列图
df4 <- data.frame(time = 1875:1972,height = LakeHuron)
p10 <- ggplot(data = df4,mapping = aes(x=time,y=height))+
geom_line()+
labs(title = "p10",
caption = "数据来源:R语言自带数据集")+
theme_classic()
print(p10)