本文数据是大学专业和就业的信息recent-grads.csv特征如下:
Rank - Rank by median earnings
Major_code - Major code
Major - Major description
Major_category - Category of major
Total - Total number of people with major
Sample_size - Sample size (unweighted) of full-time
Men - Male graduates
Women - Female graduates
ShareWomen - Women as share of total
Employed - Number employed
Histograms(直方图)
直方图(Histogram)又称质量分布图。是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况。在画直方图时首先需要把数据按照不同的范围分成几个组,分成的组的个数称为组数
- 下面画出了数据集的两个属性的直方图(分布图)
import pandas as pd
import matplotlib.pyplot as plt
recent_grads = pd.read_csv('recent-grads.csv')
columns = ['Median','Sample_size']
recent_grads.hist(column=columns)
- 当然,也可以自定义直方图中的一些属性(layout表示布局,grid表示是否有网格)
import matplotlib.pyplot as plt
columns = ['Median','Sample_size']
# Set the `layout` parameter as `(2,1)` so the graphs are displayed as 2 rows & 1 column
# Then set `grid` parameter to `False`.
recent_grads.hist(column=columns, layout=(2,1), grid=False)
Practice: Histograms
从”Median”的直方图中我们可以发现它的取值主要集中在20000到70000之间。
从”Sample_size”的直方图中我们可以观察到超过80%的major只有不到500个学生参与学习。
- 仔细研究”Sample_size”这个属性,我们将其直方图分组设置为50而不是默认的10:
recent_grads.hist(bins=50,column='Sample_size')
Box Plots(盒图)
箱形图(英文:Box-plot),又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。在各种领域也经常被使用,常见于品质管理。不过作法相对较繁琐。它能显示出一组数据的最大值、最小值、中位数、下四分位数及上四分位数。
- 将专业Major按Major_category进行分组,然后分析每个组中的sample_size的分布(因为每个category有很多个Major,每个Major有一个sample_size,因此一个category就会产生一个分布),利用盒图可以很清楚的表达数据的分布情况:
sample_size = recent_grads[['Sample_size', 'Major_category']]
sample_size.boxplot(by='Major_category')
# 将横轴的标签旋转90度,否则标签太长挤在一起看不清楚
plt.xticks(rotation=90)
Multiple Plots In One Chart
- 在一个图标中画多个数据集
# Plot Unemployment_rate on x-axis, Median salary on y-axis, in red
plt.scatter(recent_grads['Unemployment_rate'], recent_grads['Median'], color='red')
# Plot ShareWomen (Female % in major) on x-axis, Median salary on y-axis, in blue
plt.scatter(recent_grads['ShareWomen'], recent_grads['Median'], color='blue')
plt.show()