直方图、盒图

本文数据是大学专业和就业的信息recent-grads.csv特征如下:

Rank - Rank by median earnings
Major_code - Major code
Major - Major description
Major_category - Category of major
Total - Total number of people with major
Sample_size - Sample size (unweighted) of full-time
Men - Male graduates
Women - Female graduates
ShareWomen - Women as share of total
Employed - Number employed

Histograms(直方图)

直方图(Histogram)又称质量分布图。是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况。在画直方图时首先需要把数据按照不同的范围分成几个组,分成的组的个数称为组数

  • 下面画出了数据集的两个属性的直方图(分布图)
import pandas as pd
import matplotlib.pyplot as plt
recent_grads = pd.read_csv('recent-grads.csv')
columns = ['Median','Sample_size']
recent_grads.hist(column=columns)

直方图

  • 当然,也可以自定义直方图中的一些属性(layout表示布局,grid表示是否有网格)
import matplotlib.pyplot as plt

columns = ['Median','Sample_size']

# Set the `layout` parameter as `(2,1)` so the graphs are displayed as 2 rows & 1 column 
# Then set `grid` parameter to `False`.
recent_grads.hist(column=columns, layout=(2,1), grid=False)

这里写图片描述

Practice: Histograms

从”Median”的直方图中我们可以发现它的取值主要集中在20000到70000之间。
从”Sample_size”的直方图中我们可以观察到超过80%的major只有不到500个学生参与学习。

  • 仔细研究”Sample_size”这个属性,我们将其直方图分组设置为50而不是默认的10:
recent_grads.hist(bins=50,column='Sample_size')

直方图

Box Plots(盒图)

箱形图(英文:Box-plot),又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。在各种领域也经常被使用,常见于品质管理。不过作法相对较繁琐。它能显示出一组数据的最大值、最小值、中位数、下四分位数及上四分位数。

这里写图片描述

  • 将专业Major按Major_category进行分组,然后分析每个组中的sample_size的分布(因为每个category有很多个Major,每个Major有一个sample_size,因此一个category就会产生一个分布),利用盒图可以很清楚的表达数据的分布情况:
sample_size = recent_grads[['Sample_size', 'Major_category']]
sample_size.boxplot(by='Major_category')
# 将横轴的标签旋转90度,否则标签太长挤在一起看不清楚
plt.xticks(rotation=90)

盒图

Multiple Plots In One Chart

  • 在一个图标中画多个数据集
# Plot Unemployment_rate on x-axis, Median salary on y-axis, in red
plt.scatter(recent_grads['Unemployment_rate'], recent_grads['Median'], color='red')
# Plot ShareWomen (Female % in major) on x-axis, Median salary on y-axis, in blue
plt.scatter(recent_grads['ShareWomen'], recent_grads['Median'], color='blue')
plt.show()

这里写图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值