简介:
- 数据分析首先要了解数据的分布,通过直方图和密度图可以很直观的观察数据的分布形状。
- 通过观察数据分布情况,对数据有一个初步的了解,方便对数据进行后续的处理。
直方图
- 直方图:是在x坐标轴上表示数据的组距,在y坐标轴上表示数据的频数。
- 下图为某学校部分学生身高的分布:
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/9cfcdce2ec5d16f0dcd511b66b2a22f4.png)
- 从上面直方图可以看出,大多数人的身高是集中在155-175范围,组距划分的越精细,直方图显示的就月详细。
直方图代码R语言
DF <- read.table(...)
library(ggplot2)
ggplot(DF)+
geom_histogram( aes(height),
fill="steelblue",
alpha=0.7,
binwidth=1 )
密度图
- 密度图:和直方图类似,可以直观的看到数据分布的形态,但是y轴显示的不是频数,而是显示的概率密度。
- 看起来就像吧直方图用平滑曲线个连接了起来。
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/085411eb2a2564a461a47ed0d95a3810.png)
- 从密度图来看,身高占比人数最多的在160-161之间,占比大约为4%。
密度图代码R语言:
DF <- read.table(...)
library(ggplot2)
ggplot(DF)+
geom_density( aes(x = height),color = 'orange',fill='orange',alpha=0.2 ) +
theme(axis.text=element_text(size=10),
axis.title=element_text(size=14,face="bold"))