chapter2—40题
数据文件名为Sno.csv,包含美国51个主要城市1981~2010年的年平均最高气温和年平均降雪量
1.以年平均最低气温为横轴,年平均降雪量为数轴,绘制散点图
2.这两个变量之间存在相关关系吗
练习:
1.画散点图
#导入库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif']=['Arial Unicode MS'] #用来正常显示中文标签(MAC)
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
#读取数据
snow = pd.read_csv("/myfile/个人事务/数据分析学习/商务与经济统计/数据文件/第2章/Snow.csv",sep=",")
#画散点图
X = snow["Average Low temp"]
X = round((X-32)/1.8,2) #将温度单位转化为更熟悉的摄氏度,保留两位小数
Y = snow["Average Snowfall"]
fig = plt.figure(figsize=(8,6)) #设置图片尺寸
plt.scatter(X,Y)
plt.title("温度与降雪量散点图")
plt.xlabel("年平均最低气温(℃)")
plt.ylabel("年平均降雪量(英寸)")
2.年平均最低气温越低,年降雪量越高
chapter3—54题
BorderCrossings.csv文件,包含8月期间50个最繁忙的美国-加拿大和美国-墨西哥入境口岸的个人车辆过境数(四舍五入到最接近的1000辆)(美国交通运输局网站,2013年2月28日)
1.这些入境口岸过境次数的平均数和中位数是多少
2.第一四分位数和第三四分位数各为多少
3.用五数概括法汇总数据
4.数据是否包含异常值?绘制箱形图。
练习:
1.求平均数和中位数
BC = pd.read_csv("/myfile/个人事务/数据分析学习/商务与经济统计/数据文件/第3章/BorderCrossings.csv",sep=",")
BC.rename(columns={
"Port Name":"Port_Name","Personal Vehicles (1000s)":"Personal_Vehicles"},inplace=True)
# 求平均数
BC.Personal_Vehicles.mean()
# 求中位数
BC.Personal_Vehicles.median()
结果
2.求分位数
a.直接使用numpy库中的np.percentile()函数求分位数
q1 = np.percentile(BC["Personal_Vehicles"],25,interpolation="linear") #计算第一四分位数
q3 = np.percentile(BC["Personal_Vehicles"],75,interpolation="linear") #计算第三四分位数
print("第一四分位数是:{}".format(q1))
print("第三四分位数是:{}".format(q3))
查阅答案发现,计算结果和标准答案不同,因此根据书上公式自编一段函数求解
b.自编函数
先将样本排序, X = { x 1 , x 2 , … , x n } , x 1 < = x 2 < = . . . < = , x n X=\left\{x_{1},x_{2},…,x_{n} \right\},x_{1}<=x_{2}<=...<=,x_{n} X={
x1,x2,…,x