hadoop
文章平均质量分 77
luffy
JD数据罗盘
展开
-
Hive优化总结
Hive优化总结---by 食人花 优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如转载 2013-10-01 20:19:09 · 908 阅读 · 0 评论 -
hadoop原理浅析及安装
原文:http://guoli0813.blog.51cto.com/623863/293138经过几天的测试,hadoop分布式系统搭建完毕。首先说一下这几天对hadoop理论知识的理解,然后说一下安装及碰到的问题。有图有真相http://192.168.0.20:50070/dfshealth.jsp 第一:理论知识: 什么是hadoop: 由转载 2013-10-01 20:23:42 · 912 阅读 · 1 评论 -
hive SQL优化之distribute by和sort by
原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://yaoyinjie.blog.51cto.com/3189782/703873 最近在优化hiveSQL,下面是一段排序,分组后取每组第一行记录的SQLINSERT OVERWRITE TABLE t_wa_funnel_distinct_temp转载 2013-10-01 18:06:11 · 1107 阅读 · 0 评论 -
Hadoop如何计算map数和reduce数
Hadoop在运行一个mapreduce job之前,需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数,当一个job提交时,jobclient首先分析job被拆分的split数量,然后吧job.split文件放置在HDFS中,一个job的MapTask数量就等于split的个数。job.split中包含split的个数由FileInputF转载 2013-11-25 10:40:53 · 756 阅读 · 0 评论 -
Hadoop2.2.0安装配置手册!完全分布式Hadoop集群搭建过程~(心血之作啊~~)
历时一周多,终于搭建好最新版本hadoop2.2集群,期间遇到各种问题,作为菜鸟真心被各种折磨,不过当wordcount给出结果的那一刻,兴奋的不得了~~(文当中若有错误之处或疑问欢迎指正,互相学习)PS:转载请注明来源:http://blog.csdn.net/licongcong_0224/article/details/12972889另外:欢迎配置过程中遇到问题的朋友留言,转载 2014-01-06 18:30:53 · 14743 阅读 · 2 评论 -
hive之窗口函数理解与实践
rt_data表存放了当天每半小时的店铺销售数据------------------------------------------------------------1.统计截止到当前时间段的店铺累计销售金额select shop_id, stat_date, ordamt, sum(ordamt) over(partition by shop_id order by stat_da原创 2015-01-13 14:58:39 · 44049 阅读 · 10 评论 -
mapreduce原理理解
mapreduce原理看来很多文章,就是没能很好地表述出来,还是需要自己写一下文章,独立思考一下整体思路才行啊。用自己的话来说话。首先需要知道mapreduc任务是怎么启动的:当客户的提交一个mapreduce任务,将产生一个job,Hadoop是将job分成task来进行处理的:map task和reduce taskHadoop怎么控制job的运行呢?由两种节点来控制:JobTra原创 2015-03-03 12:51:49 · 903 阅读 · 0 评论