数据清洗很头疼?掌握着这些技巧就够了!
在做统计数据分析之前我们都明白,一个完整的数据分析过程基本上离不开以上几个步骤:
数据收集或数据获取;
数据清洗或数据整理;
描述性统计分析、探索性统计分析、推断统计分析;
总结统计结果并形成统计报告或统计报表。
当我们自己独自完成过这整个过程就知道,整个过程最复杂最耗时的往往不是具体的统计分析过程,因为统计分析一般都有通用的流程化的完备的统计理论和统计方法,这些理论方法使用一般规范化的数据类型,对于非结构化、或者混乱的数据,并不能直接进行分析,因此我们往往需要将原始数据做出适当的处理,才能使其用于统计分析,而往往我们会将整个过程的大部分时间用于该过程,将数据整理成我们具体问题所需要的样子。
该部分的学习往往零散、混乱、不成体系,一般的教材或者工具书为了方便教学,要么成篇大论,要么全是一些比较落后简单的一些方法和图形展示,这些方法也是通用的方法,但因为本身零散,不成体系,本身学起来困难,因此我在在这里做出一个适当的整理和展示,即是为了自己学习复习方便,也希望给你们除了教材之余学习一些漂亮且炫酷的技巧。
数据的审核
对于原始数据,保证其完整性和准确性——确保没有缺失值和异常值;对二手数据,确保其实用性和时效性——有些数据因为目的收集方式以及时间不同可能并不适用
如何检测出异常离群值和缺失值以及如何进行处理?
检测手段主要从表格和数据两个方向入手:
1通过表格中数据排序;
2.利用图形的离群点来诊断,通常利用箱线图捕获异常值(通常认为大于最大值加1.5倍的标准差,低于最小值加1.5倍的标准差记为离群值即异常值);
对缺失值的处理:去掉不必要的缺失值,或者运用插值法补充缺失值
线性插值:求出线性方程,通过临近的值结合线性方程补全缺失值
多项式插值:利用已知的数据拟合出一个多项式,使得现有的数据满足这多项式,再利用多项式求解缺失值。常见多项式插值有拉格朗日插值和牛顿插值。
样条插值:以可变样条做出一条进过一系列点的光滑曲线的插值方法。插值样条由一些多项式组成,每个多项式都由相邻两个数据点决定,这样可以保证两个相邻多项式及其倒数在连接处连续。
数据分组
通过分组,我们更好地观察数据整体的分布情况,然而数据整体内是个什么情况,却被掩盖了,为了方便计算,我们首先假定各组数据在本组内呈现均符合均匀分布或者组中值两侧服从对称分布,此时即可用一组中间的值(下限值+上限值)/2即组中值代表该数据
数据分组原则:不重不漏原则,实际习惯上规定“上组限不在组内”
数据分组步骤:
1.确定组数实,际上是将一个连续型数据进行离散化处理,即可以将数值型数据转化分类型数据或者顺序型数据处理),通过确定合理的组数来观察数据的分布特征,假如组数太少,数据过于集中,组数太少,数据过于离散一般情况下组数在5-15之间较为合适)
2.确定各组组距
(最大值-最小值)/组数
3.根据分组编制频数分布表
数据筛选
数据筛选在不同的软件中会有不同的函数,但大体上都会用到IF AND OR NOT IN 等逻辑词;
数据排序
数据的排序:按照一定的顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索
对于分类数据,如果是字母型数据,排序有升序和降序之分,如果是汉字型数据,可以按首字母拼音(即字母)排序,也可以按照姓氏笔画排序
对与数值型数据,只有递增和递减两种
数据重编码、数据变换
1.标准化是一种最为常见的量纲化处理方式。其计算公式为:
2.归一化的目的是让数据压缩在【0,1】范围内,包括两个边界数字0和数字1;其计算公式为:
数据的可视化(重中之重,一图胜千言!!!)
图表一般包括以下几个元素
标题(main title)、副标题(sub title)、纵坐标(yaxis)纵坐标刻度(ytick )、纵坐标标题(ylab ytitle)、横坐标(xasix)、横坐标刻度(xtick)、横坐标标题(xlab xtitle)图例说明、文本标注、数字标注等,至于这些元素如何调整,参考我往期的关于图形的绘制那一期,下面对不同类型的数据适合用什么图基于分类,具体图形怎么画,下一篇文章附代码
分类型数据展示 条形图(水平条形图、垂直条形图、复合条形图、堆砌条形图)、频数分布表(向上累计分布表或图和向下累计分布表或图)、饼图(二维、三维)、帕累托图、环形图、棘状图、扇形图
顺序型数据展示向上累计频数分布、向下累计频数分布、箱线图(四分位数以及异常离群值)、吉他图(变形的箱线图)、切痕图(变形的箱线图)
数值型数据展示 直方图 茎叶图 折线图 箱线图 线图 散点图 气泡图 雷达图
以下图表展示用到R语言和Excel 后续代码请看下一篇附带
垂直条形图
水平条形图
堆砌条形图
复合条形图(分组条形图)
均值条形图
棘状图
茎叶图
The decimal point is 1 digit(s) to the right of the |
2 | 5
3 |
4 | 5
5 | 045
6 | 148
7 | 25589
8 | 1344456667999
9 | 0112
10 | 0
饼图
扇形图
直方图
折线图
散点图(相关性、回归)
帕累托图(比例)
环形图(两个以上的比较)
箱线图(四分位数以及异常值)
切痕图
小提琴图(变形的箱线图)
热力矩阵(多变量相关)(相关系数矩阵)
下三角热力矩阵图
气泡图(三变量)
线图
雷达图
马赛克图