自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 Mapreduce剔除缺失数据信息大于n个字段的记录

Mapreduce剔除缺失数据信息大于n个字段的记录 1.一开始的思路是如何去重置计数器,在map阶段的时候,计数时,如果大于等于n个字段时删除,并重置计数器,开始下一行计数,但是在map阶段的时候,没有去重置计数器,map自动为我们重置了,当时很纳闷,后来找了数据测试一下发现,map阶段每执行一行数据之后,会重新执行一次map,这也就说说,我们在计数一行的数据之后,map会重新的执行,也就把计数器重置了!!!下面是测试的代码 2.数据文件: 代码: public class Test {

2021-11-27 11:33:01 1690

原创 Spark处理csv文件

Spark处理csv文件: csv数据如下: 首先是如何去除第一行: 将"header"设置为"true",意思是把csv文件的第一行不作为表头 将"header"设置为"fasle"意思是把csv文件的第一行作为表头 第二步将文件转为DataFrame: 创建数组接收,这样处理的好处是:需要哪几列数据根据数组下标提取即可 之后toDF设置每列的表头,结果如下: ...

2021-09-11 09:31:33 1956

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除