spark
文章平均质量分 80
大数据小阿姨
意识 判断选择力 相信 行动
认知过程 发现 分类 织网
展开
-
Scala_Spark-电商平台离线分析项目-知识点复盘及目录
Scala_Spark-电商平台离线分析项目-知识点复盘及目录SparkCore需求一:1)累加器需求二:1)广播变量需求三: 好像没啥需求四:1)自定义二级排序2)leftOuterJoin 有个option需要isDfinded3)groupByKey4)yield 搜集(flatMap不想把value迭代器分开的时候)5)list.sortWith (用作对...原创 2019-11-17 22:17:29 · 210 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求十最近一小时广告点击量实时统计
Scala_Spark-电商平台离线分析项目-需求十最近一小时广告点击量实时统计第四模块:广告流量实时统计统计技术点:SparkStreaming、kafka集群补充知识点Dstream.reduceByKeyAndWindow(func,窗口长度,步长)substring()kafka.broker.list=node01:9092,node02:9092,node03:9...原创 2019-11-15 16:14:58 · 556 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求九各省热门广告实时统计top3
Scala_Spark-电商平台离线分析项目-需求九各省热门广告实时统计top3第四模块:广告流量实时统计统计技术点:SparkStreaming、kafka集群补充知识点transform: 里面执行RDD-to-RDD,最后还是一个DStreamsparkSQL里用到了开窗函数DStream里面Row的解析DStream输出—>forearchRDD(func)...原创 2019-11-15 16:13:01 · 266 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求八各城市各广告的实时点击流量统计
Scala_Spark-电商平台离线分析项目-需求八各城市各广告的实时点击流量统计第四模块:广告流量实时统计统计技术点:SparkStreaming、kafka集群知识点:updateStateByKey 全局的累积操作kafka.broker.list=node01:9092,node02:9092,node03:9092kafka.topics=AdRealTimeLog0308、...原创 2019-11-14 15:18:28 · 236 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求七广告黑名单实时统计
Scala_Spark-电商平台离线分析项目-需求七广告黑名单实时统计第三模块:热门商品离线统计技术点:SparkStreaming、kafka集群kafka.broker.list=node01:9092,node02:9092,node03:9092kafka.topics=AdRealTimeLog0308、(一)执行步骤1)本地生产数据 发送到kafka开启zookeep...原创 2019-11-14 14:53:39 · 347 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求七前数据生成与数据消费测试
Scala_Spark-电商平台离线分析项目-需求七前数据生成与数据消费测试第三模块:热门商品离线统计技术点:SparkStreaming、kafka集群kafka.broker.list=node01:9092,node02:9092,node03:9092kafka.topics=AdRealTimeLog0308(一)执行步骤1)试验一下本地生产数据能否发送到kafka里去...原创 2019-11-08 20:23:23 · 500 阅读 · 0 评论 -
Scala_SparkSql-UDAF弱类型用户自定义聚合函数实例
scala_sparksql-UDAF弱类型用户自定义聚合函数实例import org.apache.spark.sql.Rowimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apache.spark.sql.types.{Da...原创 2019-11-07 12:26:07 · 331 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求六各区域top3商品统计
Scala_Spark-电商平台离线分析项目-需求六各区域top3商品统计AreaTop3Stat.scalaimport java.util.UUIDimport commons.conf.ConfigurationManagerimport commons.constant.Constantsimport commons.utils.ParamUtilsimport net.sf...原创 2019-11-07 12:24:48 · 438 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求五页面转化率统计
Scala_Spark-电商平台离线分析项目-需求五页面转化率统计模块二:页面单跳转化率统计业务模块PageConverStat.scala 方法import java.util.UUIDimport commons.conf.ConfigurationManagerimport commons.constant.Constantsimport commons.utils.{Date...原创 2019-11-05 20:03:33 · 337 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求四top10热门品类的top10活跃session
Scala_Spark-电商平台离线分析项目-需求四top10热门品类的top10活跃sessionTop10Session.scala 数据库表格形式样例类/** * 需求四的数据库表格形式样例类 * top10热门品类的top10活跃session * * @param taskid * @param categoryid * @param sessionid * @para...原创 2019-11-04 15:03:28 · 401 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求三top10热门品类
Scala_Spark-电商平台离线分析项目-需求三top10热门品类样例类/** * 需求三 * 的样例类 * 最后输出到mysql的数据格式 * * @param taskid * @param categoryid * @param clickCount * @param orderCount * @param payCount */case class Top1...原创 2019-11-03 22:39:00 · 657 阅读 · 0 评论 -
Scala_Spark-电商平台离线分析项目-需求二Session随机抽取
Scala_Spark-电商平台离线分析项目-需求二Session随机抽取样例类/** * 需求二的样例类 * session随机抽取详细表 * * @param taskid 当前计算批次的id * @param userid 用户id * @param sessionid session的id * @param pageid 某个页面的id * @pa...原创 2019-11-03 13:28:19 · 526 阅读 · 0 评论 -
Scala_spark-电商平台离线分析项目-需求一Session访问步长时长占比统计
Scala_spark-电商平台离线分析项目-需求一Session访问步长时长占比统计共十个需求需求一代码实现sessionStat.scalaimport java.util.{Date, UUID}import commons.conf.ConfigurationManagerimport commons.constant.Constantsimport commons.mo...原创 2019-10-31 23:52:54 · 309 阅读 · 0 评论 -
Spark_Scala-累积-RDD-DataSet-DataFrame-相互转换
Spark_Scala-累积-RDD-DataSet-DataFrame-相互转换代码举例package com.atguigu.bigdata.spark.sqlimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, Dataset,...原创 2019-10-24 01:00:14 · 338 阅读 · 0 评论 -
Scala_累积-Scala样例类-1
Scala_累积-Scala样例类-1case类在模式匹配和actor中经常使用到,当一个类被定义成为case类后,Scala会自动帮你创建一个伴生对象并帮你实现了一系列方法且带来了不少好处。有三种 日后碰到再补充1.1.实现了apply方法,意味着你不需要使用new关键字就能创建该类对象case class User(id:Int,name:String,age:Int)...原创 2019-10-23 20:53:57 · 316 阅读 · 0 评论 -
spark_note02_Spark框架&spark_IDEA
Spark框架&spark_IDEA生态及版本再说什么是sparkApache Spark是一个用于大规模数据处理的统一分析引擎spark是基于内存的计算框架Spark框架的四大特点速度快与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快上10倍原因:1.mr,每个job输出结果都要存到磁盘,后续job依赖于前面job...原创 2019-09-20 01:19:44 · 287 阅读 · 0 评论 -
spark_note03_spark计算模型RDD_1
spark计算模型RDD_1.0(一)什么是RDD弹性分布式数据集基于内存弹性的自动容错的内存迭代(er)RDD的五大属性1.一个分区列表每个RDD都有很多个分区,分区里面才是真正的数据,spark的任务是以分区为单位的,一个分区后期就对应一个spark的task,也就是一个分区就对应一个线程2.作用在每一个rdd分区中的函数举例:val rdd2=rdd1.map(...原创 2019-09-22 00:56:37 · 261 阅读 · 0 评论 -
spark_note04_ip地址查询热力图源数据
ip地址查询1. 需求分析 在互联网中,我们经常会见到城市热点图这样的报表数据,例如在百度统计中,会统计今年的热门旅游城市、热门报考学校等,会将这样的信息显示在热点图中。 因此,我们需要通过日志信息(运行商或者网站自己生成)和城市ip段信息来判断用户的ip段,统计热点经纬度。2. 技术调研 因为我们的需求是完成一张报表信息,所以对程...原创 2019-09-22 16:36:33 · 1006 阅读 · 0 评论 -
spark_note05_RDD依赖关系&spark架构_2
(一)spark RDD的依赖关系1.窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用比喻:独生子女结论:窄依赖不会产生shuffle比如:flatMap/map/filter…2.宽依赖窄依赖指的是父RDD的Partition被子RDD的多个Partition使用比喻:超生结论:宽依赖会产生shuffle比如:reduce...原创 2019-09-23 17:34:20 · 250 阅读 · 0 评论 -
spark_note06_sparkSQL_1
(一)sparkSQLsparkSQL是什么sparkSQL是apache spark的一个处理结构化数据的模块。它提供了一个编程抽象叫做DataFrame 并且作为分布式sql查询引擎的作用sparkSQL四大特性1.易整合可以将sparksql与spark应用程序进行混合使用并且可以使用java、scala、python、R等不同语言进行代码开发2.统一的数据源访问...原创 2019-09-24 17:44:53 · 196 阅读 · 0 评论 -
spark_note07_sparkSQL_2
sparkSQL_DataFrame(一)通过IDEA开发sparksql程序实现将rdd转换成dataframe1、引入pom依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</ar...原创 2019-09-26 15:57:13 · 263 阅读 · 1 评论 -
spark_note08_spark on yarn
spark on yarnyarn–cluster模式driver程序在yarn中运行,应用的运行结果不能在客户端显示,最好保存在外部存储介质(如hdfs、redis、mysql)spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn --deploy-mode cluster \--drive...原创 2019-09-26 15:58:22 · 121 阅读 · 0 评论 -
spark_note09_SparkStreaming概述与原理
SparkStreaming概述与原理(一)什么是sparkstreamingsparkstraming是一个易构建、可扩展、具有容错机制的流式应用程序。它就是一个实时处理的程序,数据不断的来,然后它就进行实时不断的处理。(二)sparkstreaming特性1、易用性可以像开发 离线批处理 一样去编写 实时处理的代码程序多种语言开发javascalap...原创 2019-09-27 19:16:05 · 170 阅读 · 0 评论 -
spark_note10_SparkStreaming_DStream
(五)DStream操作实战1、添加依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <versi...原创 2019-10-06 20:08:40 · 211 阅读 · 1 评论 -
spark_note01_spark-shell
spark入门&spark-shell【启动spark集群】集群状态[root@node01 sparkdata]# jps1954 QuorumPeerMain6388 Jps2981 NameNode4424 SparkSubmit3273 SecondaryNameNode3865 Master3116 DataNode[root@node02 spark-2...原创 2019-09-19 21:29:23 · 205 阅读 · 0 评论