hadoop
文章平均质量分 78
xiaozhuangfeng
这个作者很懒,什么都没留下…
展开
-
hadoop学习工作总结(一)
hadoop的优点: 高可靠性:hadoop按位存储 高扩展性:hadoop 数据是通过文件系统分布式存储的。 高效性:能够在节点之间动态的移动数据,并保证各个节点的动态平衡,因此处理速度非常快。 高容错性:能自动保存数据的多个副本,并且能够自动将失败的任务重橷分配。hadoop核心:HDFS、MapReduce、HBaseHDFS:当硬件出原创 2014-08-27 20:57:09 · 762 阅读 · 0 评论 -
hive优化一
order byorder by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order by 和数据库中的转载 2015-08-05 17:25:23 · 464 阅读 · 0 评论 -
hive优化二
1、提前过滤数据,减少中间数据依赖:尽量尽早的过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的数据。如下,改写后的写法将会大大减少join的数据量select ... from Ajoin Bon A.key = B.keywhere A.userid>10 and B.userid and A.dt='20120417原创 2015-08-06 16:52:05 · 557 阅读 · 0 评论 -
hive优化四
最近开发中遇到几种应用,刚好使用MAPJOIN来解决实际的问题。应用共同点如下:1: 有一个极小的表行2: 需要做不等值join操作(a.x 这种操作如果直接使用join的话语法不支持不等于操作,hive语法解析会直接抛出错误如果把不等于写到where里会造成笛卡尔积,数据异常增大,速度会很慢。甚至会任务无法跑成功~根据mapjoin的计算原理,MAPJION会把小表全部读原创 2015-08-07 18:07:15 · 751 阅读 · 0 评论 -
hive优化三
第一部分:Hadoop 计算框架的特性什么是数据倾斜•由于数据的不均衡原因,导致数据分布不均匀,造成数据大量的集中到一点,造成数据热点Hadoop框架的特性•不怕数据大,怕数据倾斜•jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的转载 2015-08-06 16:44:34 · 406 阅读 · 0 评论 -
Sqoop工具使用 (二)--把HDFS中的数据导入到Oracle
sqoop export工具把HDFS中的数据导入到rdbms系统中,实现方式有三种:(1)insert mode:生成insert语句然后执行,这是默认的方式(2)update mode:生成update语句,替换数据库中的记录(3)call mode:调用存储过程处理每一条记录:Common argumentsArgument Description转载 2014-09-16 18:09:28 · 937 阅读 · 0 评论 -
Sqoop工具使用(一)--从oracle导入数据到hive
sqoop import -D oracle.sessionTimeZone=CST --connect jdbc:oracle:thin:@192.168.78.6:1521:hexel \--username TRX --table SQOOP -m 1 --password trx --warehouse-dir /xtld/data/gj/SQOOP \--hive-imp转载 2014-09-16 17:59:18 · 1747 阅读 · 0 评论 -
数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的转载 2014-09-16 07:33:35 · 448 阅读 · 0 评论 -
hadoop学习工作总结(六)之生成hive的一个存储过程
declare -- Local variables here i integer; v_max_i number; v_where varchar2(4000); v_relation_column varchar2(30) := 'party_id'; v_data_type varchar2(30); begin for r in (SELE原创 2014-09-02 16:54:35 · 3806 阅读 · 1 评论 -
hadoop学习工作总结(四)之数据同步
数据同步到hive:原创 2014-09-02 15:53:13 · 550 阅读 · 0 评论 -
hadoop学习工作总结(三)之数据优化
数据优化:1、小表放在前面,大表放在后面。因为会把前面的表读进内存再进行关联。2、把分区的条件在on关系后面,不要放在where后面。因为放where后面会把所有分区关联后再按分区过滤。3、不要使用count(distinct()),使用先分组,后count()。4、数据倾斜 mapjoin原创 2014-09-02 15:11:14 · 538 阅读 · 0 评论 -
hadoop学习工作总结(二)之hive流程
coordinator.xml : frequency="${coord:months(1)}" start="${job_start}" end="${job_end}" timezone="GMT+08:00" xmlns="uri:oozie:coordinator:0.2"> 2 1 initial-instance="${原创 2014-09-02 14:45:46 · 650 阅读 · 0 评论 -
hadoop学习工作总结(五)之从txt文件导数到hive
--建维表(TRA_PAC_HOW_RELATION_INFOS)drop table TMP_CX_VEHICLE_LICENCE_CODE;CREATE TABLE TMP_CX_VEHICLE_LICENCE_CODE( province STRING comment "省份", shortened_form STRING comment "简称",原创 2014-09-02 16:30:23 · 908 阅读 · 0 评论 -
hive sql遇到的问题
某个字段条件过多,查询条件失效select * from login where dt='20130101' and (ver !='3.1' or ver !='3.2' or ver != '4.0' or ver != '5.2');备注:感谢 杨庆荣的指导,这里笔误,其实修改为如下的sql,功能可以实现,该bug纯属作者的错误:select * from log转载 2014-08-29 10:12:48 · 645 阅读 · 0 评论 -
hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法
order byorder by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order b转载 2014-08-29 10:06:14 · 391 阅读 · 0 评论 -
hive大数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的转载 2014-08-29 09:41:23 · 348 阅读 · 0 评论 -
Hadoop集群应用于大数据分析优势和挑战
大数据分析在过去几年里非常流行。即便如此,很多组织发现,现有的数据挖掘和分析技术还是不能胜任大数据的处理任务。对于这个问题,一个可能的解决方案就是搭建Hadoop集群,但它并不适合所有情况。让我们了解一下使用Hadoop集群的优缺点。 Hadoop集群是什么? Hadoop集群是一种专门为存储和分析海量非结构化数据而设计的特定类型的集群。本质上,它是一种计算集群,即将数据分析的转载 2014-08-27 21:31:16 · 939 阅读 · 0 评论 -
增量实现
###参数source ExitCodeCheck.shqueueName=$1;hive_db_name_360=$2;stat_date=$3;end_date=$4;#### 新理赔 新增 1hive -v -e "use ${hive_db_name_360};set mapred.job.queue.name=queue_gbd_ide_02;se原创 2015-09-15 14:53:29 · 1100 阅读 · 0 评论