2020年09月_叫我小蟹

原创 spark中的transformation算子详解（需要进行shuffle的算子）（二）--- 图解+案例+源码分析

shuffle算子1、cogroup算子：（协分组、或者称为联合分组）（1）group与cogroup：①group：是将一个RDD里面的多个分区中的key相同的数据，通过shuffle进入到同一个分区的同一组中；②cogroup：是将两个或多个RDD联合起来，通过shuffle将key相同的数据进入到同一个分区的同一个组中；得到的结果是一个RDD；（2）cogroup的返回值：①经过cogroup返回的新的RDD是一个对偶元组，key相同的value不是放入一个迭代器，而是两个或多个迭代器中；

2020-09-21 23:09:38 980 1

原创 spark中的transformation算子详解（需要进行shuffle的算子）（一）

shuffle算子1、groupByKey（针对于对偶元组类型的数据进行按key分组操作）（1）经groupByKey处理后的数据得到的结果泛型可以是：(String,Iterator(Int))；（2）调用groupByKey后生成一个shuffledRDD；（3）key相同的进入同一节点的同一分区中；（4）如何保证key相同的进入同一台机器的同一分区中？一个分区中只有一个key吗？①溢写磁盘，标识key，拉取属于自己的key到同一分区；下游到上游拉取属于自己的key到同一分区的同一组内；

2020-09-20 17:55:53 361

原创 spark案例分析之：订单数据案例--计算订单分类成交金额

需求：订单数据案例：（数据检索并将计算结果保存到MySQL中）（1）需求：在给定的订单数据中，根据订单的分类ID进行聚合，然后按照订单分类名称，统计出某一天商品哥哥分类的成交金额；然后将计算结果保存到MySQL中。（2）字段说明：oid：订单id，String类型cid: 商品分类id，Int类型money: 订单金额，Double类型longitude: 经度，Double类型latitude: 纬度，Double类型（3）分类信息：1.家具；2.手机；3.服装。

2020-09-20 10:29:35 1842

原创 Spark简易执行流程（以standalone-client模式为例）

1、加载主类，通过反射调用指定类的main方法；2、创建SparkContext，与Master进行通信申请资源；3、Master与Worker通信，启动executor；4、Worker中启动executor，并创建线程池；5、executor向Driver反向注册；6、创建原始RDD；val lines = sc.textFile(“hdfs://linux02:9000/data”)7、调用RDD中的Transformation(s)算子；val result = lines.fil.

2020-09-17 22:34:59 179

原创 scala中定义函数的几种方法

scala中定义函数的几种方法package java_scala/** * 函数的本质就是引用类型，相当于Java中的new出来的实例；函数是在堆内存中新开辟的一片空间。 * 定义的函数一定要有输入和返回值； * scala方法的返回值一定是放在一个整体里的；（例如：元组） * 没有返回值相当于返回的是Unit； * 调用函数其实是调用函数里面的apply方法来执行逻辑； * scala的编译期可以自动推断类型； * tuple其实使用了语法糖。 */object Function

2020-09-13 23:36:26 1085

原创 Java代码实现Scala中的map、filter、reduce方法(第一版)

1、MapFunction接口package java_scala;public interface MapFunction { //定义一个规范，要求输入字符串，返回的也是字符串 String apply(String word);}2、FilterFunction接口package java_scala;public interface FilterFunction { //定义一个规范，要求输入的是Boolean类型，返回的是String类型 Bool

2020-09-13 23:04:40 406

原创 Akka简介与实现RPC通信流程

1、akka通信：①akka是一个通信框架，基于Actor编程模型实现，底层使用Netty来实现远程RPC通信；②可以是单机的，也可以是分布式的；Akka中内置了许多的mailboxes；③在akka里，Actor之间通信的唯一机制就是消息传递；④spark1.6版本之前，spark分布式节点之间的消息传递使用的就是Akka，底层也就是actor实现的；1.6之后底层使用的netty传输。2、Actor简介：①Actor是用来收发消息，处理逻辑的，Actor就是通过收发消息实现并发的；②Act

2020-09-13 20:18:09 1154

原创 Hive知识点（一）详细网罗之---基础篇

1、hive概念：（1）hive是一个处理结构化数据的数仓工具；（2）用户可以在客户端上写HQL语句（是一种类SQL语句），hive将HQL语句转为MR程序，将maptask和reducetask提交到yarn上，分布式运行；（3）hive是一个工具，只需要在一台机器上安装，指定元数据位置等信息即可。2、hive处理数据的简易流程：（1）解析SQL语句；（2）优化SQL语句；（3）将SQL语句转化成MR逻辑；（4）读取数据；（5）找到元数据的位置；（6）加载元数据信息。注： ①元数

2020-09-03 20:58:32 260

原创 Hbase笔记（三）之---原理加强篇（Hbase读写流程、flush、合并拆分、RowKey设计等）

6、Hbase写入数据流程：前提：①Hbase中的表包括：行、列族、列和值；其中，key是：行、列族和列，value是：值；②随着Hbase表中的数据量增加，RegionServer会将Region会分裂成不同的Region，Region在不同的RegionServer中，一个Region对应一个RegionServer；③每个Region中，存在一个或多个列族Store，每个Store中有一个MemStore实例。数据写入WAL之后就会被放入MemStore；④MemStore是内存的存储对象，

2020-09-01 09:17:41 366

weixin_45484707的博客