scala
文章平均质量分 70
大数据小阿姨
意识 判断选择力 相信 行动
认知过程 发现 分类 织网
展开
-
Scala_Spark-电商平台离线分析项目-知识点复盘及目录
Scala_Spark-电商平台离线分析项目-知识点复盘及目录SparkCore需求一:1)累加器需求二:1)广播变量需求三: 好像没啥需求四:1)自定义二级排序2)leftOuterJoin 有个option需要isDfinded3)groupByKey4)yield 搜集(flatMap不想把value迭代器分开的时候)5)list.sortWith (用作对...原创 2019-11-17 22:17:29 · 235 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求十最近一小时广告点击量实时统计
Scala_Spark-电商平台离线分析项目-需求十最近一小时广告点击量实时统计第四模块:广告流量实时统计统计技术点:SparkStreaming、kafka集群补充知识点Dstream.reduceByKeyAndWindow(func,窗口长度,步长)substring()kafka.broker.list=node01:9092,node02:9092,node03:9...原创 2019-11-15 16:14:58 · 609 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求九各省热门广告实时统计top3
Scala_Spark-电商平台离线分析项目-需求九各省热门广告实时统计top3第四模块:广告流量实时统计统计技术点:SparkStreaming、kafka集群补充知识点transform: 里面执行RDD-to-RDD,最后还是一个DStreamsparkSQL里用到了开窗函数DStream里面Row的解析DStream输出—>forearchRDD(func)...原创 2019-11-15 16:13:01 · 292 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求八各城市各广告的实时点击流量统计
Scala_Spark-电商平台离线分析项目-需求八各城市各广告的实时点击流量统计第四模块:广告流量实时统计统计技术点:SparkStreaming、kafka集群知识点:updateStateByKey 全局的累积操作kafka.broker.list=node01:9092,node02:9092,node03:9092kafka.topics=AdRealTimeLog0308、...原创 2019-11-14 15:18:28 · 258 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求七广告黑名单实时统计
Scala_Spark-电商平台离线分析项目-需求七广告黑名单实时统计第三模块:热门商品离线统计技术点:SparkStreaming、kafka集群kafka.broker.list=node01:9092,node02:9092,node03:9092kafka.topics=AdRealTimeLog0308、(一)执行步骤1)本地生产数据 发送到kafka开启zookeep...原创 2019-11-14 14:53:39 · 391 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求七前数据生成与数据消费测试
Scala_Spark-电商平台离线分析项目-需求七前数据生成与数据消费测试第三模块:热门商品离线统计技术点:SparkStreaming、kafka集群kafka.broker.list=node01:9092,node02:9092,node03:9092kafka.topics=AdRealTimeLog0308(一)执行步骤1)试验一下本地生产数据能否发送到kafka里去...原创 2019-11-08 20:23:23 · 556 阅读 · 0 评论 -
Scala_SparkSql-UDAF弱类型用户自定义聚合函数实例
scala_sparksql-UDAF弱类型用户自定义聚合函数实例import org.apache.spark.sql.Rowimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apache.spark.sql.types.{Da...原创 2019-11-07 12:26:07 · 373 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求六各区域top3商品统计
Scala_Spark-电商平台离线分析项目-需求六各区域top3商品统计AreaTop3Stat.scalaimport java.util.UUIDimport commons.conf.ConfigurationManagerimport commons.constant.Constantsimport commons.utils.ParamUtilsimport net.sf...原创 2019-11-07 12:24:48 · 471 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求五页面转化率统计
Scala_Spark-电商平台离线分析项目-需求五页面转化率统计模块二:页面单跳转化率统计业务模块PageConverStat.scala 方法import java.util.UUIDimport commons.conf.ConfigurationManagerimport commons.constant.Constantsimport commons.utils.{Date...原创 2019-11-05 20:03:33 · 360 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求四top10热门品类的top10活跃session
Scala_Spark-电商平台离线分析项目-需求四top10热门品类的top10活跃sessionTop10Session.scala 数据库表格形式样例类/** * 需求四的数据库表格形式样例类 * top10热门品类的top10活跃session * * @param taskid * @param categoryid * @param sessionid * @para...原创 2019-11-04 15:03:28 · 448 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求三top10热门品类
Scala_Spark-电商平台离线分析项目-需求三top10热门品类样例类/** * 需求三 * 的样例类 * 最后输出到mysql的数据格式 * * @param taskid * @param categoryid * @param clickCount * @param orderCount * @param payCount */case class Top1...原创 2019-11-03 22:39:00 · 711 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求二Session随机抽取
Scala_Spark-电商平台离线分析项目-需求二Session随机抽取样例类/** * 需求二的样例类 * session随机抽取详细表 * * @param taskid 当前计算批次的id * @param userid 用户id * @param sessionid session的id * @param pageid 某个页面的id * @pa...原创 2019-11-03 13:28:19 · 551 阅读 · 0 评论 -
Spark_Scala-累积-RDD-DataSet-DataFrame-相互转换
Spark_Scala-累积-RDD-DataSet-DataFrame-相互转换代码举例package com.atguigu.bigdata.spark.sqlimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, Dataset,...原创 2019-10-24 01:00:14 · 361 阅读 · 0 评论 -
Scala_累积-Scala样例类-1
Scala_累积-Scala样例类-1case类在模式匹配和actor中经常使用到,当一个类被定义成为case类后,Scala会自动帮你创建一个伴生对象并帮你实现了一系列方法且带来了不少好处。有三种 日后碰到再补充1.1.实现了apply方法,意味着你不需要使用new关键字就能创建该类对象case class User(id:Int,name:String,age:Int)...原创 2019-10-23 20:53:57 · 350 阅读 · 0 评论