【spark】01数据预处理

本文详细介绍了在IDEA环境下使用Spark进行数据预处理的步骤,包括如何读入文件避免乱码,筛选特定列和字段,以及两种不同的map方法改变key-value对。最后,文章还讨论了数据的存储和实验小结,是初学者入门Spark数据处理的好帮手。
摘要由CSDN通过智能技术生成

1 在IDEA运行的环境

val conf=new SparkConf()
val sc=new SparkContext(conf)
val spark=SparkSession.builder().getOrCreate()
import spark.implicits._

2 读入文件并防止乱码

val df1=spark.read.option("header",true).option("encoding","gbk").csv("hdfs://dfspath")

3 筛选列、字段

select("XX1","XX2","XX3","XX4")
filter($"XX1"==="AA" || $"XX1"==="BB").distinct().na.drop() //去重、删除null/NaN行

4 map改变key-Value

方法1
val df3=df2.rdd.map{row=>
  //转换时间格式
  val time = String.valueOf(row(1))     //time转化为String类型
  val inputFormat = new SimpleDateFormat("yyyyMMddHHmmss")    //获取这个格式的时间,输入格式
  val outputFormat = new SimpleDa
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值