0x00 第三章总结思考题
1、 数据预处理包括哪些内容
数据预处理是读数据分类和分组钱所做的必要处理,包括:
数据审核:审核数据是否有错,从完整性和准确性
数据筛选:按照需求找到符合条件的数据
数据排序:数据排序以便发现明显特征或趋势
数据透视表:对数据汇总和作图
2、分类数据和顺序数据的整理和图示方式方法各有哪些
分类数据:对事物的一种分类、类别,然后计算每一类别的频数、频率、或者比例、比率等,形成一张频数分布表。图示包括:
条形图:
帕累托图:按照频次排序后的条形图
饼图
环形图:饼图叠加 中心部分挖空,形成对比多个分类数据的饼图
3、数值型数据的分组方法有哪些?简述组距分组的步骤
数值型数据的分组方法:
1)
组距分组:(遵循原则:不重不漏 上组限不在内 a<=x<b)
1) 确定组数,一般组数K 5<=K<=15
2) 确定各组的组距 组距=(最大值-最小值)/组数
3) 根据分组编制频数分布表
组距分组分为:等距分组、不等距分组(eg: 婴儿组(0-6岁)、少年组(7-17岁))
如果存在最大值和最小值与其他数据相差悬殊,则可以把第一组和最后一组采取”xx一下“及”xx以上“
数值型数据的图示:
1)直方图—分组数据
2) 茎叶图和箱线图—未分组数据
3)线图–时间序列数据
4)散点图、气泡图、雷达图—多变量数据
4、直方图和条形图区别
1)条形图长度代表频次,宽度固定;直方图高度代表频次,宽度代表组距
2)直方图矩形是连续的;条形图是分开的
3)条形图展示分类数据;直方图展示数据值类数据
5、绘制线形图需注意哪些问题
横轴为时间,观测值在纵轴,横轴大于纵轴的长方形
6、饼图和环形图的不同
饼图一个分类变量构成
环形图是展示两个或多个分类变量的研究,有利于比较
0x01 图形展示
1、折线图
import pandas as pd
unrate=pd.read_csv('unrate.csv')
unrate['DATE']=pd.to_datetime(unrate['DATE'])
print unrate.head(12)
import matplotlib.pyplot as plt
unrate['MONTH']=unrate['DATE'].dt.month
first_twelve=unrate[0:12]
plt.plot(