python数据分析与应用
实训1 分析1996~2015年人口数据特征间的关系
并分析1996~2015年人口数据各个特征的分布分散状况
运行环境:jupyter notebook
数据:populations.npz
链接:https://pan.baidu.com/s/123wS4QmhXAHGMUK5K-9evA
提取码:1uv9
1.需求说明:
人口数据总共有6个特征,分别为年份、年末总人口、男性人口、女性人口、城镇人口、乡村人口。查看各个特征随着时间推移发生的变化情况可以分析出未来男女人口比例、城乡人口变化的方向。
并绘制各年份男女人口数目及城乡人口数目的直方图,男女人口比例及城乡人口比例的饼图可以发现人口结构的变化。而绘制每个特征的箱线图则可以发现不同特征增长或者减少的速率是否变得缓慢。
2.实现步骤
(1)使用库:NumPy读取人口数据
(2)创建画布
(3)在两个子图上分别绘制散点图和折线图
(4)保存,显示图片
(5)分析未来人口变化趋势
1.首先导入数据,并查看数据,可以看到最后两行是缺失值
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
data = np.load('E://课程//数据挖掘建模//populations.npz',allow_pickle=True)
data.files,data['data'][0:-2,:],data['feature_names']#['data'][0:-2,:]删除最后两行缺失值
输出结果如下:
2.绘制’1996~2015年末与各类人口散点图’
plt.rcParams['font.sans-serif']='SimHei'
name=data['feature_names']
values=data['data']
p1=plt.figure(figsize=(11,11))
pip1=p1.add_subplot(2,1,1)
plt.scatter(values[0:20,0],values[0:20,1],marker='8',color='blue')
plt.xticks(range(0,20,1),values[range(0,20,1),0],rotation=45)
plt.ylabel('总人口(万人)')
plt.legend('年末')
plt.title('1996~2015年末与各类人口散点图')
输出结果如下:
3.绘制’1996~2015年末总与各类人口折线图’
pip2=p1.add_subplot(2,1,2)
plt2=plt.figure(figsize=(10,6))
plt.scatter(values[0:20,0],values[0:20,2],marker='o',color='black')
plt.scatter(values[0:20,0],values[0:20,3],marker='D',color='green')
plt.scatter(values[0:20,0],values[0:20,4],marker='p',color='orange')
plt.scatter(values[0:20,0],values[0:20,5],marker='s',color='purple')
plt.xlabel('时间')
plt.ylabel('总人口(万人)')
plt.xticks(values[0:20,0],rotation=45)
plt.legend(['男性','女性','城镇','乡村'])
#绘制折线图
p2=plt.figure(figsize=(12,12))
p1=p2.add_subplot(2,1,1)
plt.plot(values[0:20,0],values[0:20,1],color='r',linestyle='--',marker='8')
plt.ylabel('总人口(万人)')
plt.xticks(range(0,20,1),values[range(0,20,1),0],rotation=45)
plt.legend('年末')
plt.title('1996~2015年末总与各类人口折线图')
运行结果如下:
4.绘制’2015年城、乡人口数直方图’
import numpy as np
import matplotlib.pyplot as plt
data=np.load('E://课程//数据挖掘建模//populations.npz',allow_pickle=True)
name=data['feature_names'];values=data['data'];plt.rcParams['font.sans-serif']='SimHei'
label1=['男性','女性'];label2=['城镇','乡村'];ex=[0.01,0.01]
#1.直方图
p1=plt.figure(figsize=(12,12))
#子图1
a1=p1.add_subplot(2,2,1)
plt.bar(range(2),values[19,2:4],width=0.6,color='orange');plt.ylabel('人口(万人)');plt.ylim(0,80000)
plt.xticks(range(2),label1);plt.title('1996年男、女人口数直方图')
#子图2
b1=p1.add_subplot(2,2,2)
plt.bar(range(2),values[0,2:4],width=0.6,color='red')
plt.ylabel('人口(万人)');plt.ylim(0,80000)
plt.xticks(range(2),label1)
plt.title('2015年男、女人口数直方图')
#子图3
c1=p1.add_subplot(2,2,3)
plt.bar(range(2),values[19,4:6],width=0.6,color='green');plt.xlabel('类别')
plt.ylabel('人口(万人)');plt.ylim(0,90000);plt.xticks(range(2),label2)
plt.title('1996年城、乡人口数直方图')
#子图4
d1=p1.add_subplot(2,2,4)
plt.bar(range(2),values[0,4:6],width=0.6,color='blue')
plt.xlabel('类别')
plt.ylabel('人口(万人)')
plt.ylim(0,90000)
plt.xticks(range(2),label2)
plt.title('2015年城、乡人口数直方图')
输出结果如下:
5.绘制相关部分的饼图
#2.饼图
p2=plt.figure(figsize=(8,8))
#子图1
a2=p2.add_subplot(2,2,1)
plt.pie(values[19,2:4],explode=ex,labels=label1,colors=['pink','crimson'],autopct='%1.1f%%')
plt.title('1996年男、女人口数饼图')
#子图2
b2=p2.add_subplot(2,2,2)
plt.pie(values[0,2:4],explode=ex,labels=label1,colors=['PeachPuff','skyblue'],autopct='%1.1f%%')
plt.title('2015年男、女人口数饼图')
#子图3
c2=p2.add_subplot(2,2,3)
plt.pie(values[19,4:6],explode=ex,labels=label2,colors=['pink','crimson'],autopct='%1.1f%%')
plt.title('1996年城、乡人口数饼图')
#子图4
d2=p2.add_subplot(2,2,4)
plt.pie(values[0,4:6],explode=ex,labels=label2,colors=['PeachPuff','skyblue'],autopct='%1.1f%%')
plt.title('2015年城、乡人口数饼图')
结果如下:
6.绘制箱线图
#3.箱线图
p3=plt.figure(figsize=(10,10))
plt.boxplot(values[0:20,1:6],notch=True,labels=['年末','男性','女性','城镇','乡村'],meanline=True)
plt.xlabel('类别')
plt.ylabel('人口(万人)')
plt.title('1996~2015年各特征人口箱线图')
plt.show()