目录
前言
大数据课开始准备大作业了,我负责数据预处理部分。心血来潮之下,python可以简单完成的事情,我打算拿来用c++练手。
去空行
因为许久没有用C++了,找了个去空行的软件读了一下。
源码见文末代码块内rmBankLine函数(行4-40)。
数据预处理
数据可视化统计
处理如下图所示数据集。行数为30w。
给出两条较短的数据样例(其中请注意倒数的机型与厂商与图片位置交换):
1198527,1,NULL,5,[8942704],[1.597884091518E12],河南,新乡,华为,华为 p9
1060363,0,0,4,"[9135753,10882324]","[1.568921033704E12,1.568921033704E12]",陕西,宝鸡,vivo,y55
性别和年龄的空值null数统计
我笨人一个。算法是未经思考自然生成的笨比算法。
因为只能逐个字符读写数据,我只得用笨方法设了几个flag标记以区分中括号[]的内外,来用几个笨比计数器工作,以此才得到我需要的字段数和统计量。
在最后的输出部分我还是更喜欢printf这边,但是由于书写较为繁琐,稍微温故过后果断采取了笨比不动脑的cout叭叭写完得辽。
源码见文末代码块内count函数(行43-99)。
以下是统计结果。
可以看出,这个数据