热点词统计

1先将文件上传hdfs,通过spark.read.txtFile导入数据

show查看

 case class Shuju(date:String,name:String,address:String)

调用Dataset的map()算子将每一个元素拆分并存入shuju类中,

val dataset=data.map(line=>{

            val fields=line.split(",")

            val date=fields(0)

            val name=fields(1)

            val address=fields(2)

            shuju(date,name,address)})

 # 查看shujuDataset中的数据内容

 dataset.show()

3.

#将Dataset转为DataFrame

Spark SQL查询的是DataFrame中的数据,因此需要将存有元数据信息的Dataset转为DataFrame。

调用Dataset的toDF()方法,将存有元数据的Dataset转为DataFrame,代码如下:

val sjdf =shujuDataset.toDF()

#执行SQL查询

在DataFrame上创建一个临时视图v_person,并使用SparkSession对象执行SQL查询,代码如下

sjdf.createTempView("v_shuju")

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值