项目
文章平均质量分 86
大数据小阿姨
意识 判断选择力 相信 行动
认知过程 发现 分类 织网
展开
-
Shell_ODPS-D2-2-离线数仓集群分发、整体操作脚本xsync
Shell_ODPS-D2-2.0-集群分发、整体操作脚本xsync191129版(一)集群分发脚本xsync1.hadoop102 上编写脚本[root@hadoop102 ~]# cd /usr/local/bin[root@hadoop102 bin]# vim xsync脚本内容#!/bin/bash#1 获取输入参数个数,如果没有参数,直接退出pcount=$#...原创 2020-03-03 00:34:31 · 907 阅读 · 0 评论 -
Java_ODPS-D2-1-离线数仓-日志数据样本
Java_ODPS-D2-离线数仓-1.0191129版(一)样本日志数据 ,java模拟产生这里四五条0000-00-00 00:00:44.587 [main] INFO com.ataliyun.appclient.AppMain - 1583074424587|{"cm":{"ln":"-97.2","sv":"V2.7.3","os":"8.1.8","g":"71F54L6Y...原创 2020-03-02 01:15:48 · 183 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-知识点复盘及目录
Scala_Spark-电商平台离线分析项目-知识点复盘及目录SparkCore需求一:1)累加器需求二:1)广播变量需求三: 好像没啥需求四:1)自定义二级排序2)leftOuterJoin 有个option需要isDfinded3)groupByKey4)yield 搜集(flatMap不想把value迭代器分开的时候)5)list.sortWith (用作对...原创 2019-11-17 22:17:29 · 210 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求十最近一小时广告点击量实时统计
Scala_Spark-电商平台离线分析项目-需求十最近一小时广告点击量实时统计第四模块:广告流量实时统计统计技术点:SparkStreaming、kafka集群补充知识点Dstream.reduceByKeyAndWindow(func,窗口长度,步长)substring()kafka.broker.list=node01:9092,node02:9092,node03:9...原创 2019-11-15 16:14:58 · 556 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求九各省热门广告实时统计top3
Scala_Spark-电商平台离线分析项目-需求九各省热门广告实时统计top3第四模块:广告流量实时统计统计技术点:SparkStreaming、kafka集群补充知识点transform: 里面执行RDD-to-RDD,最后还是一个DStreamsparkSQL里用到了开窗函数DStream里面Row的解析DStream输出—>forearchRDD(func)...原创 2019-11-15 16:13:01 · 266 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求八各城市各广告的实时点击流量统计
Scala_Spark-电商平台离线分析项目-需求八各城市各广告的实时点击流量统计第四模块:广告流量实时统计统计技术点:SparkStreaming、kafka集群知识点:updateStateByKey 全局的累积操作kafka.broker.list=node01:9092,node02:9092,node03:9092kafka.topics=AdRealTimeLog0308、...原创 2019-11-14 15:18:28 · 236 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求七广告黑名单实时统计
Scala_Spark-电商平台离线分析项目-需求七广告黑名单实时统计第三模块:热门商品离线统计技术点:SparkStreaming、kafka集群kafka.broker.list=node01:9092,node02:9092,node03:9092kafka.topics=AdRealTimeLog0308、(一)执行步骤1)本地生产数据 发送到kafka开启zookeep...原创 2019-11-14 14:53:39 · 347 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求七前数据生成与数据消费测试
Scala_Spark-电商平台离线分析项目-需求七前数据生成与数据消费测试第三模块:热门商品离线统计技术点:SparkStreaming、kafka集群kafka.broker.list=node01:9092,node02:9092,node03:9092kafka.topics=AdRealTimeLog0308(一)执行步骤1)试验一下本地生产数据能否发送到kafka里去...原创 2019-11-08 20:23:23 · 500 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求五页面转化率统计
Scala_Spark-电商平台离线分析项目-需求五页面转化率统计模块二:页面单跳转化率统计业务模块PageConverStat.scala 方法import java.util.UUIDimport commons.conf.ConfigurationManagerimport commons.constant.Constantsimport commons.utils.{Date...原创 2019-11-05 20:03:33 · 337 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求四top10热门品类的top10活跃session
Scala_Spark-电商平台离线分析项目-需求四top10热门品类的top10活跃sessionTop10Session.scala 数据库表格形式样例类/** * 需求四的数据库表格形式样例类 * top10热门品类的top10活跃session * * @param taskid * @param categoryid * @param sessionid * @para...原创 2019-11-04 15:03:28 · 401 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求三top10热门品类
Scala_Spark-电商平台离线分析项目-需求三top10热门品类样例类/** * 需求三 * 的样例类 * 最后输出到mysql的数据格式 * * @param taskid * @param categoryid * @param clickCount * @param orderCount * @param payCount */case class Top1...原创 2019-11-03 22:39:00 · 657 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求二Session随机抽取
Scala_Spark-电商平台离线分析项目-需求二Session随机抽取样例类/** * 需求二的样例类 * session随机抽取详细表 * * @param taskid 当前计算批次的id * @param userid 用户id * @param sessionid session的id * @param pageid 某个页面的id * @pa...原创 2019-11-03 13:28:19 · 526 阅读 · 0 评论 -
Scala_spark-电商平台离线分析项目-需求一Session访问步长时长占比统计
Scala_spark-电商平台离线分析项目-需求一Session访问步长时长占比统计共十个需求需求一代码实现sessionStat.scalaimport java.util.{Date, UUID}import commons.conf.ConfigurationManagerimport commons.constant.Constantsimport commons.mo...原创 2019-10-31 23:52:54 · 309 阅读 · 0 评论