hive
wspiderw
这个作者很懒,什么都没留下…
展开
-
数据 140g, 按照字段time 降序排列 选出最大的前50个
数据 140g, 按照字段time 降序排列 选出最大的前50个。使用 一般方法 select * from table order by time desc limit 50. 执行了1小时6分钟完全算出。任务数1个 map数 1783 reduce 1而 select * from (select * from table distribute by time sort ...原创 2015-01-26 14:00:51 · 156 阅读 · 0 评论 -
hive 表连接
http://shiyanjun.cn/archives/588.html 生成一个MR Job多表连接,如果多个表中每个表都使用同一个列进行连接(出现在JOIN子句中),则只会生成一个MR Job,例如:1SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key...原创 2015-01-27 14:38:41 · 161 阅读 · 0 评论 -
hive分享
开发常用日期处理函数 No.1 sysdate(int)语法:sysdate(整数数字)返回值:string类型的日期说明:返回系统当前日期加上括号中的整数数字对应的日期,如sysdate(-1)返回昨天的日期‘2015-01-27’,sysdate(0)返回今天‘2015-01-28’,sysdate(1)返回明天‘2015-01-29’,以此类推。举例:输入:Se...原创 2015-01-30 14:29:22 · 210 阅读 · 0 评论 -
hive建表
DROP TABLE IF EXISTS app_wms_data_clean_bs_pack;CREATE EXTERNAL TABLE app_wms_data_clean_bs_pack( stat_date string comment '统计日期', GOODS_NO string COMM...原创 2015-05-07 09:55:14 · 114 阅读 · 0 评论 -
from insert select where
from dim.dim_wms_store a insert overwrite table test_20150609 select * where store_id=2 insert overwrite table test_201506092 select * where store_id=5 ----------------------------------------...原创 2015-06-09 17:47:15 · 352 阅读 · 0 评论 -
hive优化之-控制hive任务中的map数和reduce数
1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个...原创 2016-02-01 15:55:37 · 108 阅读 · 0 评论 -
Hadoop 统计一个目录的文件大小
Hadoop 统计一个目录的文件大小 hive的查询注意事项以及优化总结 . http://www.cnblogs.com/xd502djj/p/3799432.htmlHadoop Hive基础sql语法http://www.cnblogs.com/HondaHsu/p/4346354.htmlmap和reduce 个数的设定 (Hive优化)经典http://b...原创 2016-02-03 13:38:55 · 1089 阅读 · 0 评论 -
hive优化
http://shiyanjun.cn/archives/588.html http://www.cnblogs.com/xd502djj/p/3799432.html https://www.2cto.com/net/201708/668075.html http://dacoolbaby.iteye.com/blog/1879002 基本原则:...原创 2017-10-17 11:05:26 · 129 阅读 · 0 评论