数据清洗和规整是进行数据分析的前提条件,数据的清洗和规整通常会花费比进行数据分析更多的时间,正所谓“清洗一小时,分析五秒钟”。
数据清洗和规整要依据实际数据的特征进行,其包括缺失值和冗余值的处理、数据重归类、字符类型转换等。这里将使用“狗熊会”的基础案例 “高考填报志愿,你选好了吗?”的数据进行介绍。该案例用于预测高校录取分数线的相关影响因素,因变量为x2015年平均线。
数据下载链接:http://mp.weixin.qq.com/s/8jkUfoK2_-VGntfVWjnp1A
一、数据读入与结构分析
将下载的数据转为文本格式并保存到目标文件夹下,然后读入数据,查看数据格式与内容。
>colleges<-read.csv("colleges.csv",stringsAsFactors=FALSE) #禁止将所有字符转换为因子,以方便后续清洗和规整
>str(colleges) #查看数据结构与内容
由上可知,该数据包含1169条记录和13个变量,其中因变量 x2015年平均线 为字符型,需要转换为数值型:
>colleges$X2015年平均线<-as.numeric(colleges$X2015年平均线)
接下来,分别查看各字段,以确定是否需要进行清洗和规整。经分析,发现 所在地、隶属 字段中的字符不规范,要进行规整。
二、数据清洗与规整