【spark】01数据预处理

最新推荐文章于 2024-01-28 14:32:15 发布

xixi_258

最新推荐文章于 2024-01-28 14:32:15 发布

阅读量610

点赞数

分类专栏： szt_busAndsub 文章标签： spark

本文链接：https://blog.csdn.net/xixi_258/article/details/114915236

版权

本文详细介绍了在IDEA环境下使用Spark进行数据预处理的步骤，包括如何读入文件避免乱码，筛选特定列和字段，以及两种不同的map方法改变key-value对。最后，文章还讨论了数据的存储和实验小结，是初学者入门Spark数据处理的好帮手。

摘要由CSDN通过智能技术生成

1 在IDEA运行的环境

val conf=new SparkConf()
val sc=new SparkContext(conf)
val spark=SparkSession.builder().getOrCreate()
import spark.implicits._

2 读入文件并防止乱码

val df1=spark.read.option("header",true).option("encoding","gbk").csv("hdfs://dfspath")

3 筛选列、字段

select("XX1","XX2","XX3","XX4")
filter($"XX1"==="AA" || $"XX1"==="BB").distinct().na.drop() //去重、删除null/NaN行

4 map改变key-Value

方法1

val df3=df2.rdd.map{row=>
  //转换时间格式
  val time = String.valueOf(row(1))     //time转化为String类型
  val inputFormat = new SimpleDateFormat("yyyyMMddHHmmss")    //获取这个格式的时间，输入格式
  val outputFormat = new SimpleDa