- 博客(6)
- 收藏
- 关注
原创 Spark Sql JDBC实现 聚合、union、同数据源Join等下推
Spark Sql JDBC实现 聚合、union、同数据源Join等下推简单熟悉下Spark Sql 处理JDBC数据源数据spark Sql处理JDBC数据源的代码比较简单,大家可以自行阅读官网使用demo。个人觉得比较鸡肋的地方单元测试如下:说明: emp,dept两个表是通过spark 读取mysql的同一个库的两张表 test("selectSubQuery"){ val sql = """ |select * |from
2021-05-09 16:55:31 1558 11
原创 YARN 架构设计
YARN 架构设计一、Hadoop MRv1 不足原 MapReuce 框架也称 MRv1,它是一个主从式的架构。主节点 JobTracker 负责集群的资源管理和处理 Client 请求,从节点 TaskTracker 负责管理资源和执行任务。不仅存在 JobTracker 的 SPOF 问题,而且 JobTracker 的负载非常高,集群的资源管理也非常粗暴不合理。1、单点故障,可靠性低:JobTracker 采用了 master/slave 结构,是集群事务的集中处理点,存在单点故障2、单
2021-06-07 00:17:35 1394 6
原创 Spark sql实现自定义函数
Spark sql实现自定义函数文章目录一、为什么要自定义function?二、实现自定义的函数三、测试效果总结一、为什么要自定义function?有小伙伴可能会疑问:Spark Sql提供了编写UDF和UDAF的接口扩展,为什么还有开发自定义函数呢?虽然Spark SQL 提供了UDF和UDAF,但是当我们想要实现 原生函数一样的功能比如:语义参数 ,可变参数等 功能时候,UDF和UDAF就无法满足。例如 我们想要实现类似于substr这样的函数, udf就无法实现, 其中的参数 ‘Spa
2021-06-05 15:21:02 1151 3
原创 ZooKeeper 应用场景?
ZooKeeper企业级最佳应用实战文章目录一、ZooKeeper 应用场景?二、发布订阅三、集群管理四、分布式锁五、队列管理六、 分布式选举一、ZooKeeper 应用场景?ZooKeeper:分布式协调服务,劝架者,仲裁机构。基于它提供的两大核心功能:可以实现分布式场景中的各种疑难杂症!比如最经典的分布式锁的问题。1、发布/订阅2、命名服务3、配置管理4、集群管理5、分布式锁6、队列管理7、负载均衡经典的用法:尽量少往 ZooKeeper 中写数据,写入的数据也不要特别大!Zo
2021-05-14 00:06:51 331
原创 ZooKeeper 核心功能和工作机制
ZooKeeper核心功能文章目录ZooKeeper核心功能一、ZooKeeper 核心功能和工作机制二、ZNode 数据模型1、znode 的约束(znode 的节点存储的最大数据是 1M,最好不要超过 1kb)为什么?2、znode 的分类3、znode 的小知识三、 Watcher 监听机制一、ZooKeeper 核心功能和工作机制ZooKeeper 是一个分布式协调服务,劝架者,仲裁机构。 多个节点如果出现了意见的不一致,需要一个中间机构来调停!ZooKeeper 就是一个小型的议会!当
2021-05-12 23:21:57 1148 3
原创 Spark Sql源码详细分析
Spark Sql 源码分析文章目录Spark Sql 源码分析一、SparkSQL架构设计二、代码分析1. Demo2、 Catalyst执行过程三、执行计划分析1、sql解析阶段 Parser2、绑定逻辑计划Analyzer3、逻辑优化阶段Optimizer4、生成可执行的物理计划阶段Physical Plan5、代码生成阶段7.生成代码与sql解析引擎的区别8.表达式代码生成(expression codegen)9.全阶段代码生成(Whole-stage Code Generation)10.代码
2021-05-09 18:29:01 901 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人