hive
磊子-许
技术男,希望能掌握更多技术!
展开
-
hive运行
hive:set mapred.reduce.tasks=150;set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;原创 2014-11-13 16:24:01 · 476 阅读 · 0 评论 -
hive常用参数
配套视频课程 第一部分:Hive 参数•说明:所有hive运行的map与reduce任务可以产生的文件的和•默认值:100000 hive.exec.dynamic.partition•说明:是否为自动分区•默认值:falsehive.mapred.reduce.tasks.speculative.ex原创 2014-11-13 17:59:21 · 758 阅读 · 0 评论 -
hive操作
1、insert into 语句hive> insert into table userinfos2 select id,age,name from userinfos;只是插入,不覆盖原本数据2、insert overwrite语句hive> insert overwrite table userinfos2 select id,age,name from userinfo原创 2014-11-14 11:22:26 · 570 阅读 · 0 评论 -
hive优化
hive的udf函数if,case when ,cast,concat,substr等等,没什么可提的,网上大篇。hive的多线程:hive.原创 2014-10-17 14:10:47 · 417 阅读 · 0 评论 -
hive count distinct
select count(distinct user_id) from dm_user where ds=20150701;使用disticnt函数,所有的数据只会shuffle到一个reducer上,导致reducer数据倾斜严重优化后为set mapred.reduce.tasks=50; select count(*) from (select user_id原创 2015-07-28 10:55:53 · 4219 阅读 · 0 评论 -
hive map,struct,array
hive array、map、struct使用array[1],array[2],array[3]struct.age struct.namemap['name'],map[name]http://www.cnblogs.com/end/archive/2013/01/17/2863884.htmlhive提供了复合数据类型:Structs: structs内部的数原创 2015-11-27 16:24:05 · 457 阅读 · 0 评论 -
hadoop distcp
distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 由于使用了Map/Reduce方法,这个工具在语义和执行上都会有特殊的地方。 这篇文档会为常用distcp操作提供指南并阐述它的工作模型。基本使用方法dis原创 2017-04-17 18:06:53 · 805 阅读 · 0 评论 -
hive lateral view 与 explode详解
1.explodeThen running the query:SELECT explode(myCol) AS myNewCol FROM myTable;11will produce: The usage with Maps is similar:SELECT explode(myMap) AS (myMapKey, myMapValue) FROM转载 2017-04-17 18:17:57 · 652 阅读 · 0 评论 -
Hive2.0函数大全(中文版)
Hive2.0函数大全(中文版)摘要Hive内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。 目录数学函数集合函数类型转换函数日期函数条件函数字符函数聚合函数表生成函数 数学函数Return Type转载 2017-04-17 18:19:36 · 2641 阅读 · 0 评论