![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
z小丑八怪r
这个作者很懒,什么都没留下…
展开
-
案例 计算店铺的月销售额和累加到当前月的销售和--SparkSql实现(SQL风格)
数据如下:shop1,2019-01-18,500shop1,2019-02-10,500shop1,2019-02-10,200shop1,2019-02-11,600shop1,2019-02-12,400shop1,2019-02-13,200shop1,2019-02-15,100shop2,2019-02-10,100shop2,2019-02-11,100shop2,2019-02-13,100shop2,2019-03-15,100shop2,2019-04-15,10原创 2021-01-09 18:33:29 · 506 阅读 · 0 评论 -
案例 统计用户上网流量,如果两次上网的时间小于10分钟,合并到一起 --SparkSql实现(SQL风格)
数据如下+---+-------------------+-------------------+----+| id| start_time| end_time|flow|+---+-------------------+-------------------+----+| 1|2020-02-18 14:20:30|2020-02-18 14:46:30| 20|| 1|2020-02-18 14:47:20|2020-02-18 15:20:30|原创 2021-01-09 18:29:38 · 413 阅读 · 0 评论 -
案例 根据IP地址计算归属地 spark程序广播变量实现
IP规则数据1.0.1.0|1.0.3.255|16777472|16778239|亚洲|中国|福建|福州||电信|350100|China|CN|119.306239|26.0753021.0.8.0|1.0.15.255|16779264|16781311|亚洲|中国|广东|广州||电信|440100|China|CN|113.280637|23.1251781.0.32.0|1.0.63.255|16785408|16793599|亚洲|中国|广东|广州||电信|440100|China|CN原创 2021-01-02 21:03:40 · 743 阅读 · 0 评论 -
案例 统计用户上网流量,如果两次上网的时间小于10分钟,合并到一起 --spark程序实现
/** * 数据分析: * uid,startTime, endTime, downFlow, lag() over , flag , sum_over * 1,2020-02-18 14:20:30,2020-02-18 14:46:30,20, 2020-02-18 14:20:30 0 0 * 1,2020-02-18 14:47:20,2020-02-18 15:20:30,30, 2020-02-18 14:46:30 0 0 * 1,2020-02-18 15:37:原创 2021-01-01 20:54:14 · 227 阅读 · 0 评论 -
案例 计算店铺的月销售额和累加到当前月的销售和--spark程序编写
/** * 数据: * shop1,2019-01-18,500 * shop1,2019-02-10,500 * shop1,2019-02-10,200 * shop1,2019-02-11,600 * shop1,2019-02-12,400 * shop1,2019-02-13,200 * shop1,2019-02-15,100 * shop2,2019-02-10,100 * shop2,2019-02-11,100 * shop2,2019-02-13,100 * sh原创 2021-01-01 20:46:54 · 464 阅读 · 0 评论 -
案例 计算连续登录3天及以上的用户--spark程序编写三种实现方式
第一种实现方式/** * guid01,2018-02-28 1 * guid01,2018-03-01 2 * guid01,2018-03-01 * guid01,2018-03-02 3 * guid01,2018-03-04 4 * guid01,2018-03-05 5 * guid01,2018-03-06 6 * guid01,2018-03-07 7 * * 思路:根据uid分组,组内按日期排序,开个窗口row_num * 日期减去row_num 得原创 2021-01-01 20:44:06 · 460 阅读 · 0 评论 -
spark的persist算子使用 设置Kryo序列化方式
spark的persist算子使用//设置Kryo序列化方式,占用内存小,默认使用java序列化sc.getConf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer")val rdd = sc.textFile("hdfs://linux01:8020/data/teacher.log")import org.apache.spark.storage.StorageLevelrdd.persist(Storage原创 2020-12-28 23:19:42 · 252 阅读 · 0 评论 -
Scala编写Spark的WorkCount
1 创建一个Maven项目2 在pom.xml中添加依赖和插件<!-- 定义了一些常量 --> <properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target> <scala.version>2.1原创 2020-12-21 20:06:16 · 285 阅读 · 0 评论