自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

转载 shell 中${},$(())与$()

1.${ } 做变量替换1.1${ }还可结合 #,##,%,%%,* 等做模式匹配1.2${ }可以做替换1.3¥{#var}可计算变量长度详见 shell 中${},$(())与$()2.$[ ] 和$(( ))可以进行整数运算,bash shell $( )并不可以计算...

2019-07-30 15:11:41 2858

原创 HIVE分区相关

对应HDFS一个指定文件夹,可以缩小查询范围,提高查询效率。1.创建分区表分区字段为month注意:创建分区表时,分区字段不能是表中的已有字段,否则会报错column repeated in partitioning columns;这也说明分区字段并不是表中的一列,它是一个伪列,对应HDFS中的一个分区文件夹。2.分区里导入数据hive (default)> ...

2019-07-30 14:15:40 416

原创 HIVE-样版代码

写一些样版代码,便于查询使用一.创建表1.建表语法CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [C...

2019-07-25 14:36:45 243

原创 spark 数据倾斜优化

何谓数据倾斜?数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。一个经验结论是:一般情况下,OOM的原因都是数据倾斜。某个task任务数据量太大,GC的压力就很大。这比不了Kafka,因为kafka的内存是不经过JVM的。是基于...

2019-07-08 13:07:00 216

原创 Spark通信架构

一、通信组件概览对源码分析,对于设计思路理解如下:RpcEndpoint:RPC端点 ,Spark针对于每个节点(Client/Master/Worker)都称之一个Rpc端点 ,且都实现RpcEndpoint接口,内部根据不同端点的需求,设计不同的消息和不同的业务处理,如果需要发送(询问)则调用Dispatcher RpcEnv:RPC上下文环境,每个Rpc端点运行时依赖的上下文环...

2019-07-03 13:42:57 3236

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除