- 博客(16)
- 收藏
- 关注
转载 MapReduce: 提高MapReduce性能的建议(1)
MapReduce: 提高MapReduce性能的建议(1)http://www.aboutyun.com/thread-5749-1-1.html请教一个问题:在集群上运行Mapreduce V2程序,每次处理大约100G-400G的数据,但是程序运行后,NodeManager机器的CPU会达到100%,直到任务结束,内存使用正常。在NodeManager机器上,使用jps命令,
2015-07-21 13:40:00 402
转载 hadoop MapReduce - 从作业、任务(task)、管理员角度调优
hadoop MapReduce - 从作业、任务(task)、管理员角度调优http://www.aboutyun.com/thread-10557-1-1.html问题导读1.Combiner的作用是什么?2.作业级别参数如何调优?3.任务及管理员级别有哪些可以调优?Hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些参数值使
2015-07-21 10:36:03 585
转载 MapReduce之计数器及实例
MapReduce之计数器及实例http://www.aboutyun.com/thread-13745-1-1.html感兴趣的直接点上面链接,会有更详细的解析问题导读1.hadoop有哪些内置计数器?2.job.getCounters()可以得到什么?3.MapReduce是否允许用户自定义计数器?简述:Hadoop计数器:可以让开发人员以全局的
2015-07-20 13:59:34 1233
转载 [Hadoop源码详解]之一MapReduce篇之InputFormat
小站博文地址:[Hadoop源码详解]之一MapReduce篇之InputFormat1. 概述我们在设置MapReduce输入格式的时候,会调用这样一条语句:1job.setInputFormatClass(KeyValueTextInputFormat.class);这条语句
2015-07-15 09:56:22 628
转载 MapReduce中的分区方法Partitioner
问题导读:1.Partitioner分区类的作用是什么?2.getPartition()三个参数分别是什么?3.numReduceTasks指的是设置的Reducer任务数量,默认值是是多少?扩展:如果不同类型的数据被分配到了同一个分区,输出的数据是否还是有序的?在进行MapReduce计算时,有时候需要把最终的输出数据分到不同的文件中,比如按照省份划分的话,需
2015-07-14 10:45:09 687 1
转载 从程序角度分析mapreduce原理与代码
1.描述mapper处理的过程?2.调用一次map方法会输出多少键值对?3.对于输出的键值对,默认分区标准是什么?4.分区与reducer任务之间的关系是什么?5.是什么规约?规约的目的是什么?规约是否必须的?6.键相等的键值对调用几次reduce方法?MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法
2015-07-13 17:55:27 437
原创 java的toString
为什么我在类中重写他,当输出该类对象的时候却能显示里面的结果?例如:我输出的是一个对象,却调用到了toString方法public class TTT {private String id;private String name;public void setId(String id) {this.id = id;}public void setName(String
2015-07-13 14:31:47 400
转载 彻底了解mapreduce核心Shuffle--解惑各种mapreduce问题
本文合适和对mapreduce有一定了解,并且产生各种问题的同学,算是一个解惑篇。如果刚接触的话,这篇文章很有可能看不下去。建议先了解Hadoop简介(1):什么是Map/ReduceMapReduce 编程模型概述mapreduce是hadoop的核心之一,mapreduce经常让我们产生各种困惑,我们只是知道什么是map,什么是renduce,甚至我们已经熟悉了mapred
2015-07-13 13:49:45 367
转载 Hive性能调校
1. 设置hive.map.aggr=true,提高HiveQL聚合的执行性能。这个设置可以将顶层的聚合操作放在Map阶段执行,从而减轻清洗阶段数据传输和Reduce阶段的执行时间,提升总体性能。缺点:该设置会消耗更多的内存。注:顶层的聚合操作(top-levelaggregation operation),是指在group by语句之前执行的聚合操作。例如,
2015-07-08 17:46:22 497
转载 深入浅出数据仓库中SQL性能优化之Hive篇
深入浅出数据仓库中SQL性能优化之Hive篇http://www.aboutyun.com/thread-11349-1-1.html问题导读1、如何理解数据仓库中SQL之Hive整体优化?2、怎样对Job整体优化?3、如何减少Job数?摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,
2015-07-08 16:07:23 748
翻译 让你真正明白什么是hive
导读:对于一个事物的认识,存在几种情况1.没有接触,不知道这个事物是什么,所以不会产生任何问题。2.接触了,但是不知道他是什么,反正我每天都在用。3.有一定的了解,不够透彻。那么hive,1.我们对它了解多少?2.它到底是什么?3.hive和hadoop是什么关系?扩展:hbase和hive是什么关系?Hive最初是应Facebook每天产生
2015-07-08 13:17:00 514
转载 让你彻底明白hive数据存储各种模式
问题导读1.hive数据分为那两种类型?2.什么表数据?3.什么是元数据?4.Hive表里面导入数据的本质什么?5.表、分区、桶之间之间的关系是什么?6.外部表和表的区别是什么?Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目
2015-07-08 11:34:52 1735
转载 hive内部表与外部表区别详细介绍
问题导读:1.创建内部表与外部表的区别是什么?2.external关键字的作用是什么?3.外部表与内部表的区别是什么?4.删除表的时候,内部表与外部表有什么区别?5.load data local inpath '/home/wyp/data/wyp.txt' into table wyp;的过程是什么样子的?6.磁盘,hdfs,hive表他们之间的过程是什么样子的?
2015-07-08 10:31:30 1219
转载 Mapper过程中Combiner的作用
我们可以带着下面问题来阅读为什么需要在Mapper端进行归约处理?为什么可以在Mapper端进行归约处理?既然在Mapper端可以进行归约处理,为什么在Reducer端还要处理?我们知道,MapReduce是分为Mapper任务和Reducer任务,Mapper任务的输出,通过网络传输到Reducer任务端,作为输入。在Reduc
2015-07-03 11:37:25 675
转载 用 Ganglia 监控基于 Biginsights 的 HBase 集群性能
问题导读1.BigInsights和HBase的区别有哪些?2.Ganglia如何部署? 序言随着数据爆发式增长时代的来临,各种云计算平台也不断的被推广出来。IBM 开发了 BigInsights 云计算平台,该平台包括 Hadoop 和 HBase 等底层开源项目,它可以帮助企业从大量的数据中挖掘出隐藏的商业价值。BigInsight
2015-07-02 13:47:32 650
翻译 mapreduce任务执行过程详细分析--源码级分析
本人适合对mapreduce有一定经验人来阅读,对于新手来讲,只是阅读前面会有收获不少,但是到了后面就会有些看不懂,可以简单了解。如果对mapreduce有了半年的编程经验并且善于思考,或许这是一篇不错的文章。问题导读:1.mapreduce是一个分布式编程,那么他的输入参数是什么?2.mapreduce的起初key与value的来源是什么?3.map函数中key与valu
2015-07-01 14:25:26 4116 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人