使用sparksql开发pv,uv,二跳率

最新推荐文章于 2022-12-22 18:57:22 发布

zone工作室

最新推荐文章于 2022-12-22 18:57:22 发布

阅读量2.9k

点赞数 1

分类专栏： DB技术&&数仓技术文章标签： spark

本文链接：https://blog.csdn.net/zengxiaosen/article/details/52610514

版权

DB技术&&数仓技术专栏收录该内容

179 篇文章 3 订阅

订阅专栏

uv：user views，count（distinct guid）

pv：page views，count（url）

二跳率：count（distinct case when pv>=2 then sessionid else null end) / count(distinct sessionid)

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession
import org.apache.spark.storage.StorageLevel

/**
  * Created by zengxiaosen on 16/9/20.
  */
object visit {

  def main(args: Array[String]): Unit = {
    val sparkconf = new SparkConf().setAppName("visitCount").setMaster("local")
    val ss = SparkSession.builder().config(sparkconf).getOrCreate()
    val sc = ss.sparkContext
    import ss.implicits._

    val fileRDD = sc.textFile("/opt/tarballs/spark_kafka/beifengspark/src/main/scala/2015082818")
      .filter(line => line.length>0)
      .map{ line =>
        val arr = line.split("\t")
        val date = arr(17).substring(0, 10)
        val guid = arr(5)
        val sessionid = arr(10)
        val url = arr(1)
        (date,guid,sessionid,url)
        //通过url过滤
      }.filter(i => i._4.length>0).toDF("date","guid","sessionid","url")
      .persist(StorageLevel.DISK_ONLY)

    fileRDD.createOrReplaceTempView("log")
    /*
    guid是独立访客id,大于sessionid
     */
    val sql =
      s"""
         |select date,count(distinct guid) uv,sum(pv) pv,
         |count(case when pv>=2 then sessionid else null end) second_num,
         |count(sessionid) visits from
         |(select date, sessionid, max(guid) guid, count(url) pv from log
         |group by date,sessionid) a
         |group by date
       """.stripMargin

    val sql01 =
      s"""
         |select date,count(distinct guid) uv, count(url) pv from log
         |group by date
       """.stripMargin

    val result = ss.sql(sql).cache()
    result.show()
    result.printSchema()

    sc.stop()
    ss.stop()
  }

}