spark
叫我小蟹
这个作者很懒,什么都没留下…
展开
-
SparkSQL整合Hive与启动HiveServer2
一、Spark整合Hive:①SparkSQL兼容Hive的源数据库、兼容Hive的自定义函数、兼容Hive的序列化和反序列化。②可以用SparkSQL替代Hive或者将Hive的引擎由MapReduce换成SparkSQL。③启动SparkSQL必须是client模式,不能是cluster模式;启动SparkSQL时可以指定启动模式,错误示例如下:bin/spark-sql --deploy-mode cluster --master spark://linux02:7077 --driver-原创 2020-10-05 20:20:45 · 1934 阅读 · 0 评论 -
spark中的transformation算子详解(需要进行shuffle的算子)(二)--- 图解+案例+源码分析
shuffle算子1、cogroup算子:(协分组、或者称为联合分组)(1)group与cogroup:①group:是将一个RDD里面的多个分区中的key相同的数据,通过shuffle进入到同一个分区的同一组中;②cogroup:是将两个或多个RDD联合起来,通过shuffle将key相同的数据进入到同一个分区的同一个组中;得到的结果是一个RDD;(2)cogroup的返回值:①经过cogroup返回的新的RDD是一个对偶元组,key相同的value不是放入一个迭代器,而是两个或多个迭代器中;原创 2020-09-21 23:09:38 · 991 阅读 · 1 评论 -
spark中的transformation算子详解(需要进行shuffle的算子)(一)
shuffle算子1、groupByKey(针对于对偶元组类型的数据进行按key分组操作)(1)经groupByKey处理后的数据得到的结果泛型可以是:(String,Iterator(Int));(2)调用groupByKey后生成一个shuffledRDD;(3)key相同的进入同一节点的同一分区中;(4)如何保证key相同的进入同一台机器的同一分区中?一个分区中只有一个key吗?①溢写磁盘,标识key,拉取属于自己的key到同一分区;下游到上游拉取属于自己的key到同一分区的同一组内;原创 2020-09-20 17:55:53 · 362 阅读 · 0 评论 -
spark案例分析之:订单数据案例--计算订单分类成交金额
需求:订单数据案例:(数据检索并将计算结果保存到MySQL中)(1)需求:在给定的订单数据中,根据订单的分类ID进行聚合,然后按照订单分类名称,统计出某一天商品哥哥分类的成交金额;然后将计算结果保存到MySQL中。(2)字段说明:oid:订单id,String类型cid: 商品分类id,Int类型money: 订单金额,Double类型longitude: 经度,Double类型latitude: 纬度,Double类型(3)分类信息:1.家具;2.手机;3.服装。原创 2020-09-20 10:29:35 · 1850 阅读 · 0 评论 -
Spark简易执行流程(以standalone-client模式为例)
1、加载主类,通过反射调用指定类的main方法;2、创建SparkContext,与Master进行通信申请资源;3、Master与Worker通信,启动executor;4、Worker中启动executor,并创建线程池;5、executor向Driver反向注册;6、创建原始RDD;val lines = sc.textFile(“hdfs://linux02:9000/data”)7、调用RDD中的Transformation(s)算子;val result = lines.fil.原创 2020-09-17 22:34:59 · 184 阅读 · 0 评论