Spark
pomelorange
相信所以看见,改变始于当下
展开
-
fastspark | 用SparkCore和SparkSQL两种方式实现各省份广告TopN统计
内容本文讲述使用SparkCore和SparkSQL实现每个省份点击量最多的前三个广告id,测试数据如下省份id 广告id1 1001 1001 1001 1121 1011 1121 1021 1021 1031 1121 1121 1011 1122 1002 1212 1012 1212 1042 1212 1112 1042 1032 11...原创 2020-04-15 20:38:06 · 397 阅读 · 0 评论 -
Spark企业级交互式用户行为分析系统架构
原创 2020-04-14 23:43:30 · 174 阅读 · 0 评论 -
3种方式帮你完成J2EE业务系统根据taskID启动对应spark应用
1. 调用本地的shell脚步来启动spark的应用Java程序中调用本地的shell脚步来启动spark的应用shell脚步中是spark-submit的命令优点:简单缺点:需要将shell脚本放到所有可能执行的服务器上spark应用的jar文件和spark的环境(spark-submit脚本和相关的lib)需要放到可能只需的服务器上2. 调用远程机器上的shell脚本执...原创 2020-04-14 20:20:44 · 176 阅读 · 0 评论 -
fastspark | 电商流量PV、UV、会话二跳率统计
通过编写SparkCore 程序实现电商流量的PV、UV 以及会话二跳率的统计。通过SparkCore 比较累,也很难实现复杂功能,本文章实现的内容应该用Spark SQL 实现更好,类似于MR 可以用Hive 代替。下次整理使用SparkSQL 的实现方式数据准备数据存在Hive建表drop table track_log;create table track_log (id ...原创 2020-04-12 00:10:51 · 658 阅读 · 0 评论