hive
文章平均质量分 63
记录点滴人生
这个作者很懒,什么都没留下…
展开
-
hive技术总结
1.hive基本架构driver 解释器 编译器 优化器 运行器metadata 存储元信息2.hive 数据类型多了 map array struct3.hive 定义分区partitioned by 分桶 bucket Create table t (user_id int,url string)partitioned by (dt stri原创 2015-11-24 23:32:27 · 626 阅读 · 0 评论 -
深入浅出数据仓库中SQL性能优化之Hive篇
摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化,针对MR全局的优化以及针对整个查询的优化。一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spil转载 2016-04-08 16:46:21 · 1627 阅读 · 0 评论 -
Hive取非Group by字段数据的方法
遇到这么一个需求,输入数据为一个ID对应多个name,要求输出数据为ID是唯一的,name随便取一个就可以。执行以下hive ql语句:123456SELECT sid, class_id FROM table2 GROUP BY sid ;会报错:转载 2016-10-21 21:28:33 · 6299 阅读 · 0 评论 -
记一次hive写入orc文件失败
报错信息为map端的orc写入相关错误,现设置如下参数解决:set hive.exec.orc.default.compress.size=8192;set mapreduce.map.memory.mb=2048;set hive.exec.orc.default.buffer.size=16384;set hive.exec.orc.skip.corrupt.data=true;原创 2018-03-01 12:32:44 · 4319 阅读 · 0 评论