Spark SQL 练习_用户访问统计

最新推荐文章于 2022-06-18 10:34:55 发布

小雨光

最新推荐文章于 2022-06-18 10:34:55 发布

阅读量563

点赞数 1

分类专栏：小练习文章标签： scala

本文链接：https://blog.csdn.net/weixin_44079636/article/details/119565690

版权

小练习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

一、数据结构

id,date,visitCount

二、需求

在这里插入图片描述

三、实现

import org.apache.spark.sql.{Dataset, SparkSession}
//写一个样本类。用于创建对象
case class User(id:String,date:String,vc:Long)
object Test0 {
  def main(args: Array[String]): Unit = {

    val spark: SparkSession = SparkSession.builder()
      .master("local[*]").appName("homework").getOrCreate()
    //导入文件
    val users: Dataset[String] = spark.read.textFile("f://data//user.txt")
    //映射为结构化数据
    import spark.implicits._
    val ds: Dataset[User] = users.map(v => {
      val arr: Array[String] = v.split(" ")
      new User(arr(0), arr(1), arr(2).toLong)
    })
    //给表起个名字
    ds.createTempView("t_user")
    //测试
    spark.sql("select * from t_user").show()
    //date_format(date,格式)，需要将分割后的日期字符串转换为想要的日期格式，需要用到这个date_format
    //1。里面的两个参数 ，第一个必须是日期类型，由于从字符串切割出来的，所以现在还是String类型，那首先 就要将
    //String类型的转换成 date类型，使用to_date(date,'yyyy/M/dd')。yyyy/M/dd这个为原数据的格式
    //2.将日期转换为想要的格式：date_format(to_date(date,'yyyy/M/dd'),'y-M')

    //编写SQL，进行统计
    var sql2=
      """
        |
        |select t2.* ,sum(x1) over(partition by id order by date) x2
        |from (
        |select id,date,sum(vc) x1
        |from (select id,date_format(to_date(date,'yyyy/M/dd'),'y-M') date,vc
        |from t_user) t1
        |group by id,date
        |order by id,date
        |) t2
        |
        |
        |""".stripMargin
    spark.sql(sql2).show()
  }

}

在这里插入图片描述

四、数据

u01 2017/1/21 5
u02 2017/1/23 6
u03 2017/1/22 8
u04 2017/1/20 3
u01 2017/1/23 6
u01 2017/2/21 8
u02 2017/1/23 6
u01 2017/2/22 4

小雨光

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark SQL 练习_用户访问统计

一、数据结构id,date,visitCount二、需求三、实现import org.apache.spark.sql.{Dataset, SparkSession}//写一个样本类。用于创建对象case class User(id:String,date:String,vc:Long)object Test0 { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession.bu
复制链接

扫一扫