- 博客(5)
- 收藏
- 关注
转载 shell 中${},$(())与$()
1.${ } 做变量替换1.1${ }还可结合 #,##,%,%%,* 等做模式匹配1.2${ }可以做替换1.3¥{#var}可计算变量长度详见 shell 中${},$(())与$()2.$[ ] 和$(( ))可以进行整数运算,bash shell $( )并不可以计算...
2019-07-30 15:11:41 2858
原创 HIVE分区相关
对应HDFS一个指定文件夹,可以缩小查询范围,提高查询效率。1.创建分区表分区字段为month注意:创建分区表时,分区字段不能是表中的已有字段,否则会报错column repeated in partitioning columns;这也说明分区字段并不是表中的一列,它是一个伪列,对应HDFS中的一个分区文件夹。2.分区里导入数据hive (default)> ...
2019-07-30 14:15:40 416
原创 HIVE-样版代码
写一些样版代码,便于查询使用一.创建表1.建表语法CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [C...
2019-07-25 14:36:45 243
原创 spark 数据倾斜优化
何谓数据倾斜?数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。一个经验结论是:一般情况下,OOM的原因都是数据倾斜。某个task任务数据量太大,GC的压力就很大。这比不了Kafka,因为kafka的内存是不经过JVM的。是基于...
2019-07-08 13:07:00 216
原创 Spark通信架构
一、通信组件概览对源码分析,对于设计思路理解如下:RpcEndpoint:RPC端点 ,Spark针对于每个节点(Client/Master/Worker)都称之一个Rpc端点 ,且都实现RpcEndpoint接口,内部根据不同端点的需求,设计不同的消息和不同的业务处理,如果需要发送(询问)则调用Dispatcher RpcEnv:RPC上下文环境,每个Rpc端点运行时依赖的上下文环...
2019-07-03 13:42:57 3236
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人