Spark SQL 练习_用户访问统计

一、数据结构

id,date,visitCount

二、需求

在这里插入图片描述

三、实现

import org.apache.spark.sql.{Dataset, SparkSession}
//写一个样本类。用于创建对象
case class User(id:String,date:String,vc:Long)
object Test0 {
  def main(args: Array[String]): Unit = {

    val spark: SparkSession = SparkSession.builder()
      .master("local[*]").appName("homework").getOrCreate()
    //导入文件
    val users: Dataset[String] = spark.read.textFile("f://data//user.txt")
    //映射为结构化数据
    import spark.implicits._
    val ds: Dataset[User] = users.map(v => {
      val arr: Array[String] = v.split(" ")
      new User(arr(0), arr(1), arr(2).toLong)
    })
    //给表起个名字
    ds.createTempView("t_user")
    //测试
    spark.sql("select * from t_user").show()
    //date_format(date,格式),需要将分割后的日期字符串转换为想要的日期格式,需要用到这个date_format
    //1。里面的两个参数 ,第一个必须是日期类型,由于从字符串切割出来的,所以现在还是String类型,那首先 就要将
    //String类型的转换成 date类型,使用to_date(date,'yyyy/M/dd')。yyyy/M/dd这个为原数据的格式
    //2.将日期转换为想要的格式:date_format(to_date(date,'yyyy/M/dd'),'y-M')

    //编写SQL,进行统计
    var sql2=
      """
        |
        |select t2.* ,sum(x1) over(partition by id order by date) x2
        |from (
        |select id,date,sum(vc) x1
        |from (select id,date_format(to_date(date,'yyyy/M/dd'),'y-M') date,vc
        |from t_user) t1
        |group by id,date
        |order by id,date
        |) t2
        |
        |
        |""".stripMargin
    spark.sql(sql2).show()
  }

}

在这里插入图片描述

四、数据

u01 2017/1/21 5
u02 2017/1/23 6
u03 2017/1/22 8
u04 2017/1/20 3
u01 2017/1/23 6
u01 2017/2/21 8
u02 2017/1/23 6
u01 2017/2/22 4
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值