增量实现

###参数 source ExitCodeCheck.sh queueName=$1; hive_db_name_360=$2; stat_date=$3; end_date=$4; #### 新理赔 新增 1 hive -v -e "use ${hive_db_nam...

2015-09-15 14:53:29

阅读数 632

评论数 0

hive优化四

最近开发中遇到几种应用,刚好使用MAPJOIN来解决实际的问题。 应用共同点如下: 1: 有一个极小的表行 2: 需要做不等值join操作(a.x 这种操作如果直接使用join的话语法不支持不等于操作,hive语法解析会直接抛出错误 如果把不等于写到where里会造成笛卡尔积,数据异常...

2015-08-07 18:07:15

阅读数 370

评论数 0

hive优化二

1、提前过滤数据,减少中间数据依赖: 尽量尽早的过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的数据。 如下,改写后的写法将会大大减少join的数据量 select ... from A join B on A.key = B.key where A.user...

2015-08-06 16:52:05

阅读数 374

评论数 0

hive优化三

第一部分:Hadoop 计算框架的特性 什么是数据倾斜 •由于数据的不均衡原因,导致数据分布不均匀,造成数据大量的集中到一点,造成数据热点 Hadoop框架的特性 •不怕数据大,怕数据倾斜 •jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十...

2015-08-06 16:44:34

阅读数 299

评论数 0

hive优化一

order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序) 只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。 set hive.mapred.mode=nonstrict; (default value / 默认值)...

2015-08-05 17:25:23

阅读数 343

评论数 0

Hive优化总结

Hive优化总结 ---by 食人花       优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。 理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。   长期观察hadoop处理数据的过程,有几个...

2015-01-20 23:43:14

阅读数 315

评论数 0

Sqoop工具使用 (二)--把HDFS中的数据导入到Oracle

sqoop export工具把HDFS中的数据导入到rdbms系统中,实现方式有三种: (1)insert mode:生成insert语句然后执行,这是默认的方式 (2)update mode:生成update语句,替换数据库中的记录 (3)call mode:调用存储过程处理每...

2014-09-16 18:09:28

阅读数 599

评论数 0

Sqoop工具使用(一)--从oracle导入数据到hive

sqoop import  -D oracle.sessionTimeZone=CST --connect jdbc:oracle:thin:@192.168.78.6:1521:hexel \ --username TRX --table SQOOP -m 1 --password trx  ...

2014-09-16 17:59:18

阅读数 1335

评论数 0

数据倾斜总结

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive...

2014-09-16 07:33:35

阅读数 341

评论数 0

用shell写的数据迁移的例子

#!/usr/bin/ksh workdir=`pwd` refdir=`dirname $workdir` datadir="$refdir/data" mkdir -p $datadir user1_par=$workdir/user1.par user2_pa...

2014-09-05 00:17:10

阅读数 756

评论数 0

常用SQL

永久licenses AJZU-WOPP-VWM2-H98K-XSU6-PP34-O4OZ-CPPN-P recover database using backup controlfile allow 1 corruption; hwclock --set --date=&q...

2014-09-05 00:07:13

阅读数 619

评论数 0

shell 多进程机制

#!/usr/bin/ksh curtime=`date "+%Y-%m-%d_%H:%M:%S"` Workdir=`pwd` cfgfile="${Workdir}/cfg/baseinf.cfg" backuplogfile="...

2014-09-05 00:05:33

阅读数 385

评论数 0

Oracle SQL计划

深入读解Oracle SQL计划 【概要】 这里所谓SQL计划就是大家平时所说的执行计划。从10g开始,Oracle倾向于把执行计划称为SQL计划,到了11g,这个倾向就更加明显了,本文也顺应这个潮流,使用SQL计划这个概念,也简称计划。 大家在SQL调优的过程中,不可避免的要跟SQ...

2014-09-04 23:59:02

阅读数 370

评论数 0

oracle字符集

经常有同事咨询oracle数据库字符集相关的问题,如在不同数据库做数据迁移、同其它系统交换数据等,常常因为字符集不同而导致迁移失败或数据库内数据变成乱码。现在我将oracle字符集相关的一些知识做个简单总结,希望对大家今后的工作有所帮助。   一、什么是oracle字符集   ...

2014-09-04 23:51:45

阅读数 251

评论数 0

老鸟的Python入门教程

重要说明 这不是给编程新手准备的教程,如果您入行编程不久,或者还没有使用过1到2门编程语言,请移步!这是有一定编程经验的人准备的.最好是熟知Java或C,懂得命令行,Shell等.总之,这是面向老鸟的,让老鸟快速上手Python教程. 为什么总结这样的一个教程 我虽不是老鸟,但已熟悉Java...

2014-09-04 23:44:42

阅读数 615

评论数 0

hadoop学习工作总结(六)之生成hive的一个存储过程

declare   -- Local variables here   i integer;   v_max_i number;   v_where varchar2(4000);   v_relation_column varchar2(30) := 'party_id';   v_...

2014-09-02 16:54:35

阅读数 3077

评论数 1

hadoop学习工作总结(五)之从txt文件导数到hive

--建维表(TRA_PAC_HOW_RELATION_INFOS) drop table TMP_CX_VEHICLE_LICENCE_CODE; CREATE TABLE TMP_CX_VEHICLE_LICENCE_CODE (   province       STRING  com...

2014-09-02 16:30:23

阅读数 633

评论数 0

hadoop学习工作总结(四)之数据同步

数据同步到hive:

2014-09-02 15:53:13

阅读数 420

评论数 0

hadoop学习工作总结(三)之数据优化

数据优化: 1、小表放在前面,大表放在后面。因为会把前面的表读进内存再进行关联。 2、把分区的条件在on关系后面,不要放在where后面。因为放where后面会把所有分区关联后再按分区过滤。 3、不要使用count(distinct()),使用先分组,后count()。 4、数据倾斜 ma...

2014-09-02 15:11:14

阅读数 389

评论数 0

hadoop学习工作总结(二)之hive流程

coordinator.xml  :  frequency="${coord:months(1)}" start="${job_start}" end="${job_end}"  timezone="GMT+08:00&...

2014-09-02 14:45:46

阅读数 475

评论数 0

提示
确定要删除当前文章?
取消 删除