- 博客(2)
- 收藏
- 关注
原创 Mapreduce剔除缺失数据信息大于n个字段的记录
Mapreduce剔除缺失数据信息大于n个字段的记录 1.一开始的思路是如何去重置计数器,在map阶段的时候,计数时,如果大于等于n个字段时删除,并重置计数器,开始下一行计数,但是在map阶段的时候,没有去重置计数器,map自动为我们重置了,当时很纳闷,后来找了数据测试一下发现,map阶段每执行一行数据之后,会重新执行一次map,这也就说说,我们在计数一行的数据之后,map会重新的执行,也就把计数器重置了!!!下面是测试的代码 2.数据文件: 代码: public class Test {
2021-11-27 11:33:01
1690
原创 Spark处理csv文件
Spark处理csv文件: csv数据如下: 首先是如何去除第一行: 将"header"设置为"true",意思是把csv文件的第一行不作为表头 将"header"设置为"fasle"意思是把csv文件的第一行作为表头 第二步将文件转为DataFrame: 创建数组接收,这样处理的好处是:需要哪几列数据根据数组下标提取即可 之后toDF设置每列的表头,结果如下: ...
2021-09-11 09:31:33
1956
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人