自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (1)
  • 收藏
  • 关注

转载 Spark SQL优化利器——Adaptive Execution

引入 Intel 开源的 Adaptive Execution 功能,优化执行过程中的 shuffle 数目,执行过程中基于代价的 broadcast join 优化,替换 sort merge join,同时更彻底解决小文件问题。RBO 与 CBO 在逻辑计划优化阶段与物理计划生成阶段通过规则优化最终生成的 DAG。本文介绍的 Adaptive Execution 可在 Spark Jo...

2019-06-28 10:40:15 418

转载 spark改造,查询执行进度和日志留存

一、在spark中查看执行完成的日志spark thrift server的web ui在运行时可以看到sql查询的提交用户,执行sql等信息但是当这个实例停掉或者异常终止以后,你再去spark history server的webui去查看,发现这部分信息就没有了……image.png究其原因,原来spark thrift server并没有将...

2019-06-28 09:29:13 2515

转载 spark sql逻辑计划和物理计划执行原理

一条 SQL 在 Apache Spark 之旅(中)在《一条 SQL 在 Apache Spark 之旅(上)》文章中我们介绍了一条 SQL 在 ApacheSpark之旅的 Parser 和 Analyzer 两个过程,本文接上文继续介绍。优化逻辑计划阶段 - Optimizer在前文的绑定逻辑计划阶段对 Unresolved LogicalPlan 进行相关 transf...

2019-06-27 19:33:22 5182 2

原创 clickhouse(二、高阶函数应用retention计算留存数)

文章目录前言准备查询结论前言clickhouse提供retention(cond1, cond2, …)函数方便计算用户留存率,当然也可以应用在其他需求上。准备建表CREATE TABLE login_log -- 用户登录日志(uid Int32, -- 用户唯一idlogin_time DateTime -- 用户登录时间) ENGINE = MergeTree P...

2019-06-22 23:51:16 6829 2

原创 clickhouse(一、 高阶函数应用实现hive分区设置行号row_number() )

文章目录前言准备逻辑代码结尾前言最近公司选用clickhouse体系作为数据解决方案,ck由于底层存储区别hadoop函数,导致hql一些很好用的特性无法按照之前的写法来实现,比如按分区设行号,first_value(),lag()等开窗函数也无法正常使用,这也直接影响了我们实现业务的效率,可能导致直接懵逼…这不趁着周末来研究一番ck特殊语法。以保证以后快速从ck中找出惯用的hql逻辑的替代方...

2019-06-22 19:14:08 9573 2

转载 三家 Hadoop 厂商衰落启示:云大数据是颠覆者吗?

个人观点:如今三家 Hadoop 厂商衰落,很多人在疑惑云大数据会是颠覆者吗?其实云平台的出现确实对本地大数据服务造成了一定影响,但本地大数据厂商也在积极寻求转型和突破,云平台可能是和很好的想法,但是云上的资源调度会使得spark、yarn这种组件水土不服,所以就hadoop体系来说,on prem这种模式未来很长一段时间还是不可能被替换掉的。这三家Hadoop厂商的衰落并不代表整个生态存在问题...

2019-06-21 09:12:27 784

原创 mysql调优实践(一)

avg(expr),sum(expr)函数的特殊用法样例表结构 create table sales_order( `sales_order_no` varchar(20) NOT NULL COMMENT '销售订单编号', `store_code` varchar(255) NOT NULL COMMENT '门店编码', `paid_amo...

2019-06-03 11:03:25 221

Docker技术入门与实战PDF

Docker技术入门与实战PDF,Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。

2017-12-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除