皮皮南-CSDN博客

转载 shell 中${},$(())与$()

1.${ } 做变量替换1.1${ }还可结合 #，##，%，%%，* 等做模式匹配1.2${ }可以做替换1.3￥{#var}可计算变量长度详见 shell 中${},$(())与$()2.$[ ] 和$(( ))可以进行整数运算,bash shell $( )并不可以计算...

2019-07-30 15:11:41 2858

原创 HIVE分区相关

对应HDFS一个指定文件夹，可以缩小查询范围，提高查询效率。1.创建分区表分区字段为month注意：创建分区表时，分区字段不能是表中的已有字段，否则会报错column repeated in partitioning columns；这也说明分区字段并不是表中的一列，它是一个伪列，对应HDFS中的一个分区文件夹。2.分区里导入数据hive (default)> ...

2019-07-30 14:15:40 416

原创 HIVE-样版代码

写一些样版代码，便于查询使用一.创建表1．建表语法CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [C...

2019-07-25 14:36:45 243

原创 spark 数据倾斜优化

何谓数据倾斜？数据倾斜指的是，并行处理的数据集中，某一部分（如Spark或Kafka的一个Partition）的数据显著多于其它部分，从而使得该部分的处理速度成为整个数据集处理的瓶颈。一个经验结论是：一般情况下，OOM的原因都是数据倾斜。某个task任务数据量太大，GC的压力就很大。这比不了Kafka,因为kafka的内存是不经过JVM的。是基于...

2019-07-08 13:07:00 216

原创 Spark通信架构

一、通信组件概览对源码分析，对于设计思路理解如下：RpcEndpoint：RPC端点，Spark针对于每个节点（Client/Master/Worker）都称之一个Rpc端点 ,且都实现RpcEndpoint接口，内部根据不同端点的需求，设计不同的消息和不同的业务处理，如果需要发送（询问）则调用Dispatcher RpcEnv：RPC上下文环境，每个Rpc端点运行时依赖的上下文环...

2019-07-03 13:42:57 3236

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人