爪哇小王子-CSDN博客

原创 Mapreduce剔除缺失数据信息大于n个字段的记录

Mapreduce剔除缺失数据信息大于n个字段的记录 1.一开始的思路是如何去重置计数器,在map阶段的时候,计数时,如果大于等于n个字段时删除,并重置计数器,开始下一行计数,但是在map阶段的时候,没有去重置计数器,map自动为我们重置了,当时很纳闷,后来找了数据测试一下发现,map阶段每执行一行数据之后,会重新执行一次map,这也就说说,我们在计数一行的数据之后,map会重新的执行,也就把计数器重置了!!!下面是测试的代码 2.数据文件: 代码: public class Test {

2021-11-27 11:33:01 1690

原创 Spark处理csv文件

Spark处理csv文件: csv数据如下: 首先是如何去除第一行: 将"header"设置为"true",意思是把csv文件的第一行不作为表头将"header"设置为"fasle"意思是把csv文件的第一行作为表头第二步将文件转为DataFrame: 创建数组接收,这样处理的好处是:需要哪几列数据根据数组下标提取即可之后toDF设置每列的表头,结果如下: ...

2021-09-11 09:31:33 1956

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人