自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 spark中的transformation算子详解(需要进行shuffle的算子)(二)--- 图解+案例+源码分析

shuffle算子1、cogroup算子:(协分组、或者称为联合分组)(1)group与cogroup:①group:是将一个RDD里面的多个分区中的key相同的数据,通过shuffle进入到同一个分区的同一组中;②cogroup:是将两个或多个RDD联合起来,通过shuffle将key相同的数据进入到同一个分区的同一个组中;得到的结果是一个RDD;(2)cogroup的返回值:①经过cogroup返回的新的RDD是一个对偶元组,key相同的value不是放入一个迭代器,而是两个或多个迭代器中;

2020-09-21 23:09:38 980 1

原创 spark中的transformation算子详解(需要进行shuffle的算子)(一)

shuffle算子1、groupByKey(针对于对偶元组类型的数据进行按key分组操作)(1)经groupByKey处理后的数据得到的结果泛型可以是:(String,Iterator(Int));(2)调用groupByKey后生成一个shuffledRDD;(3)key相同的进入同一节点的同一分区中;(4)如何保证key相同的进入同一台机器的同一分区中?一个分区中只有一个key吗?①溢写磁盘,标识key,拉取属于自己的key到同一分区;下游到上游拉取属于自己的key到同一分区的同一组内;

2020-09-20 17:55:53 361

原创 spark案例分析之:订单数据案例--计算订单分类成交金额

需求:订单数据案例:(数据检索并将计算结果保存到MySQL中)(1)需求:在给定的订单数据中,根据订单的分类ID进行聚合,然后按照订单分类名称,统计出某一天商品哥哥分类的成交金额;然后将计算结果保存到MySQL中。(2)字段说明:oid:订单id,String类型cid: 商品分类id,Int类型money: 订单金额,Double类型longitude: 经度,Double类型latitude: 纬度,Double类型(3)分类信息:1.家具;2.手机;3.服装。

2020-09-20 10:29:35 1842

原创 Spark简易执行流程(以standalone-client模式为例)

1、加载主类,通过反射调用指定类的main方法;2、创建SparkContext,与Master进行通信申请资源;3、Master与Worker通信,启动executor;4、Worker中启动executor,并创建线程池;5、executor向Driver反向注册;6、创建原始RDD;val lines = sc.textFile(“hdfs://linux02:9000/data”)7、调用RDD中的Transformation(s)算子;val result = lines.fil.

2020-09-17 22:34:59 179

原创 scala中定义函数的几种方法

scala中定义函数的几种方法package java_scala/** * 函数的本质就是引用类型,相当于Java中的new出来的实例;函数是在堆内存中新开辟的一片空间。 * 定义的函数一定要有输入和返回值; * scala方法的返回值一定是放在一个整体里的;(例如:元组) * 没有返回值相当于返回的是Unit; * 调用函数其实是调用函数里面的apply方法来执行逻辑; * scala的编译期可以自动推断类型; * tuple其实使用了语法糖。 */object Function

2020-09-13 23:36:26 1085

原创 Java代码实现Scala中的map、filter、reduce方法(第一版)

1、MapFunction接口package java_scala;public interface MapFunction { //定义一个规范,要求输入字符串,返回的也是字符串 String apply(String word);}2、FilterFunction接口package java_scala;public interface FilterFunction { //定义一个规范,要求输入的是Boolean类型,返回的是String类型 Bool

2020-09-13 23:04:40 406

原创 Akka简介与实现RPC通信流程

1、akka通信:①akka是一个通信框架,基于Actor编程模型实现,底层使用Netty来实现远程RPC通信;②可以是单机的,也可以是分布式的;Akka中内置了许多的mailboxes;③在akka里,Actor之间通信的唯一机制就是消息传递;④spark1.6版本之前,spark分布式节点之间的消息传递使用的就是Akka,底层也就是actor实现的;1.6之后底层使用的netty传输。2、Actor简介:①Actor是用来收发消息,处理逻辑的,Actor就是通过收发消息实现并发的;②Act

2020-09-13 20:18:09 1154

原创 Hive知识点(一)详细网罗之---基础篇

1、hive概念:(1)hive是一个处理结构化数据的数仓工具;(2)用户可以在客户端上写HQL语句(是一种类SQL语句),hive将HQL语句转为MR程序,将maptask和reducetask提交到yarn上,分布式运行;(3)hive是一个工具,只需要在一台机器上安装,指定元数据位置等信息即可。2、hive处理数据的简易流程:(1)解析SQL语句;(2)优化SQL语句;(3)将SQL语句转化成MR逻辑;(4)读取数据;(5)找到元数据的位置;(6)加载元数据信息。注:​ ①元数

2020-09-03 20:58:32 260

原创 Hbase笔记(三)之---原理加强篇(Hbase读写流程、flush、合并拆分、RowKey设计等)

6、Hbase写入数据流程:前提:①Hbase中的表包括:行、列族、列和值;其中,key是:行、列族和列,value是:值;②随着Hbase表中的数据量增加,RegionServer会将Region会分裂成不同的Region,Region在不同的RegionServer中,一个Region对应一个RegionServer;③每个Region中,存在一个或多个列族Store,每个Store中有一个MemStore实例。数据写入WAL之后就会被放入MemStore;④MemStore是内存的存储对象,

2020-09-01 09:17:41 366

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除