C++学习日志01:对txt文件处理

本文是作者使用C++进行数据预处理的实践记录,涉及去除txt文件空行、数据可视化统计(包括性别和年龄空值统计)、冗余列删除等步骤。通过C++代码实现,虽然过程相对Python繁琐,但处理速度较快,30w行数据遍历仅需10s。
摘要由CSDN通过智能技术生成

目录

前言

去空行

数据预处理

数据可视化统计

性别和年龄的空值null数统计

冗余列删除

总结

源码


前言

大数据课开始准备大作业了,我负责数据预处理部分。心血来潮之下,python可以简单完成的事情,我打算拿来用c++练手。

去空行

因为许久没有用C++了,找了个去空行的软件读了一下。

源码见文末代码块内rmBankLine函数(行4-40)。

数据预处理

数据可视化统计

处理如下图所示数据集。行数为30w。

 给出两条较短的数据样例(其中请注意倒数的机型与厂商与图片位置交换):

1198527,1,NULL,5,[8942704],[1.597884091518E12],河南,新乡,华为,华为 p9

1060363,0,0,4,"[9135753,10882324]","[1.568921033704E12,1.568921033704E12]",陕西,宝鸡,vivo,y55

性别和年龄的空值null数统计

 我笨人一个。算法是未经思考自然生成的笨比算法。

因为只能逐个字符读写数据,我只得用笨方法设了几个flag标记以区分中括号[]的内外,来用几个笨比计数器工作,以此才得到我需要的字段数和统计量。

在最后的输出部分我还是更喜欢printf这边,但是由于书写较为繁琐,稍微温故过后果断采取了笨比不动脑的cout叭叭写完得辽。

源码见文末代码块内count函数(行43-99)。

以下是统计结果。

 可以看出,这个数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值