1 在IDEA运行的环境 val conf=new SparkConf() val sc=new SparkContext(conf) val spark=SparkSession.builder().getOrCreate() import spark.implicits._ 2 读入文件并防止乱码 val df1=spark.read.option("header",true).option("encoding","gbk").csv("hdfs://dfspath") 3 筛选列、字段 select("XX1","XX2","XX3","XX4") filter($"XX1"==="AA" || $"XX1"==="BB").distinct().na.drop() //去重、删除null/NaN行 4 map改变key-Value 方法1 val df3=df2.rdd.map{row=> //转换时间格式 val time = String.valueOf(row(1)) //time转化为String类型 val inputFormat = new SimpleDateFormat("yyyyMMddHHmmss") //获取这个格式的时间,输入格式 val outputFormat = new SimpleDa