xiaozhuangfeng-CSDN博客

原创增量实现

###参数source ExitCodeCheck.shqueueName=$1;hive_db_name_360=$2;stat_date=$3;end_date=$4;#### 新理赔新增 1hive -v -e "use ${hive_db_name_360};set mapred.job.queue.name=queue_gbd_ide_02;se

2015-09-15 14:53:29 1190

原创 hive优化四

最近开发中遇到几种应用，刚好使用MAPJOIN来解决实际的问题。应用共同点如下：1: 有一个极小的表行2: 需要做不等值join操作（a.x 这种操作如果直接使用join的话语法不支持不等于操作，hive语法解析会直接抛出错误如果把不等于写到where里会造成笛卡尔积，数据异常增大，速度会很慢。甚至会任务无法跑成功~根据mapjoin的计算原理，MAPJION会把小表全部读

2015-08-07 18:07:15 926

原创 hive优化二

1、提前过滤数据，减少中间数据依赖：尽量尽早的过滤数据，减少每个阶段的数据量，对于分区表要加分区，同时只选择需要使用到的数据。如下，改写后的写法将会大大减少join的数据量select ... from Ajoin Bon A.key = B.keywhere A.userid>10 and B.userid and A.dt='20120417

2015-08-06 16:52:05 679

转载 hive优化三

第一部分：Hadoop 计算框架的特性什么是数据倾斜•由于数据的不均衡原因，导致数据分布不均匀，造成数据大量的集中到一点，造成数据热点Hadoop框架的特性•不怕数据大，怕数据倾斜•jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，耗时很长。原因是map reduce作业初始化的时间是比较长的

2015-08-06 16:44:34 469

转载 hive优化一

order byorder by 会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order by 和数据库中的

2015-08-05 17:25:23 534

转载 Hive优化总结

Hive优化总结---by 食人花优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征:1.不怕数据多，就怕数据倾斜。2．对jobs数比较多的作业运行效率相对比较低，比如

2015-01-20 23:43:14 444

转载 Sqoop工具使用 (二)--把HDFS中的数据导入到Oracle

sqoop export工具把HDFS中的数据导入到rdbms系统中，实现方式有三种：(1)insert mode:生成insert语句然后执行，这是默认的方式(2)update mode:生成update语句，替换数据库中的记录(3)call mode:调用存储过程处理每一条记录：Common argumentsArgument Description

2014-09-16 18:09:28 1000

转载 Sqoop工具使用（一)--从oracle导入数据到hive

sqoop import -D oracle.sessionTimeZone=CST --connect jdbc:oracle:thin:@192.168.78.6:1521:hexel \--username TRX --table SQOOP -m 1 --password trx --warehouse-dir /xtld/data/gj/SQOOP \--hive-imp

2014-09-16 17:59:18 1903

在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的

2014-09-16 07:33:35 506

原创用shell写的数据迁移的例子

#!/usr/bin/kshworkdir=`pwd`refdir=`dirname $workdir`datadir="$refdir/data"mkdir -p $datadiruser1_par=$workdir/user1.paruser2_par=$workdir/user2.partouch $user1_partouch $user2_paruse

2014-09-05 00:17:10 1452

原创常用SQL

永久licensesAJZU-WOPP-VWM2-H98K-XSU6-PP34-O4OZ-CPPN-Precover database using backup controlfile allow 1 corruption;hwclock --set --date="3/29/2011 16:45:05"dbms_workload_repository.CREA

2014-09-05 00:07:13 1237

原创 shell 多进程机制

#!/usr/bin/kshcurtime=`date "+%Y-%m-%d_%H:%M:%S"`Workdir=`pwd`cfgfile="${Workdir}/cfg/baseinf.cfg"backuplogfile="${Workdir}/log/backup.log"flagdir="${Workdir}/flag"####################

2014-09-05 00:05:33 551

转载 Oracle SQL计划

深入读解Oracle SQL计划【概要】这里所谓SQL计划就是大家平时所说的执行计划。从10g开始，Oracle倾向于把执行计划称为SQL计划，到了11g，这个倾向就更加明显了，本文也顺应这个潮流，使用SQL计划这个概念，也简称计划。大家在SQL调优的过程中，不可避免的要跟SQL计划打交道，或多或少会遇到一些问题：ü 为什么explain plan得到的计划跟实际的不同呢

2014-09-04 23:59:02 1109

原创 oracle字符集

经常有同事咨询oracle数据库字符集相关的问题，如在不同数据库做数据迁移、同其它系统交换数据等，常常因为字符集不同而导致迁移失败或数据库内数据变成乱码。现在我将oracle字符集相关的一些知识做个简单总结，希望对大家今后的工作有所帮助。　　一、什么是oracle字符集　　Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家

2014-09-04 23:51:45 412

转载老鸟的Python入门教程

重要说明这不是给编程新手准备的教程,如果您入行编程不久,或者还没有使用过1到2门编程语言,请移步!这是有一定编程经验的人准备的.最好是熟知Java或C,懂得命令行,Shell等.总之,这是面向老鸟的,让老鸟快速上手Python教程.为什么总结这样的一个教程我虽不是老鸟,但已熟悉Java,C/C++, Shell和Perl,且对常见的数据结构和算法等都了解.最近因项目需要,要做一个小工具

2014-09-04 23:44:42 836

原创 hadoop学习工作总结（六）之生成hive的一个存储过程

declare -- Local variables here i integer; v_max_i number; v_where varchar2(4000); v_relation_column varchar2(30) := 'party_id'; v_data_type varchar2(30); begin for r in (SELE

2014-09-02 16:54:35 4624

原创 hadoop学习工作总结（五）之从txt文件导数到hive

--建维表(TRA_PAC_HOW_RELATION_INFOS)drop table TMP_CX_VEHICLE_LICENCE_CODE;CREATE TABLE TMP_CX_VEHICLE_LICENCE_CODE( province STRING comment "省份", shortened_form STRING comment "简称",

2014-09-02 16:30:23 978

原创 hadoop学习工作总结（四）之数据同步

数据同步到hive：

2014-09-02 15:53:13 608

原创 hadoop学习工作总结（三）之数据优化

数据优化：1、小表放在前面，大表放在后面。因为会把前面的表读进内存再进行关联。2、把分区的条件在on关系后面，不要放在where后面。因为放where后面会把所有分区关联后再按分区过滤。3、不要使用count(distinct())，使用先分组，后count()。4、数据倾斜 mapjoin

2014-09-02 15:11:14 590

原创 hadoop学习工作总结（二）之hive流程

coordinator.xml : frequency="${coord:months(1)}" start="${job_start}" end="${job_end}" timezone="GMT+08:00" xmlns="uri:oozie:coordinator:0.2"> 2 1 initial-instance="${

2014-09-02 14:45:46 729

转载 hive sql遇到的问题

某个字段条件过多，查询条件失效select * from login where dt='20130101' and (ver !='3.1' or ver !='3.2' or ver != '4.0' or ver != '5.2');备注:感谢杨庆荣的指导，这里笔误，其实修改为如下的sql，功能可以实现，该bug纯属作者的错误:select * from log

2014-08-29 10:12:48 750

原创 awk实现group by 功能

[app_usr@ haha]$ lsBOSSNM_0_3032_9069_50_H1_20120315_020_00000011_000.json BOSSNM_0_3032_9069_50_H1_20120315_020_00000015_000.jsonBOSSNM_0_3032_9069_50_H1_20120315_020_00000012_000.json BOSSNM_0

2014-08-29 10:08:13 9894

转载 hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法

order byorder by 会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order b

2014-08-29 10:06:14 432

转载 linux\uinux

简介用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动tc

2014-08-29 09:59:02 2140

转载 hive大数据倾斜总结