2015年07月_yanhan_huang

转载 MapReduce: 提高MapReduce性能的建议(1)

MapReduce: 提高MapReduce性能的建议(1)http://www.aboutyun.com/thread-5749-1-1.html请教一个问题：在集群上运行Mapreduce V2程序，每次处理大约100G-400G的数据，但是程序运行后，NodeManager机器的CPU会达到100%，直到任务结束，内存使用正常。在NodeManager机器上，使用jps命令，

2015-07-21 13:40:00 402

转载 hadoop MapReduce - 从作业、任务（task）、管理员角度调优

hadoop MapReduce - 从作业、任务（task）、管理员角度调优http://www.aboutyun.com/thread-10557-1-1.html问题导读1.Combiner的作用是什么？2.作业级别参数如何调优？3.任务及管理员级别有哪些可以调优？Hadoop为用户作业提供了多种可配置的参数，以允许用户根据作业特点调整这些参数值使

2015-07-21 10:36:03 585

转载 MapReduce之计数器及实例

MapReduce之计数器及实例http://www.aboutyun.com/thread-13745-1-1.html感兴趣的直接点上面链接，会有更详细的解析问题导读1.hadoop有哪些内置计数器？2.job.getCounters()可以得到什么？3.MapReduce是否允许用户自定义计数器？简述：Hadoop计数器：可以让开发人员以全局的

2015-07-20 13:59:34 1233

转载 [Hadoop源码详解]之一MapReduce篇之InputFormat

小站博文地址：[Hadoop源码详解]之一MapReduce篇之InputFormat1. 概述我们在设置MapReduce输入格式的时候，会调用这样一条语句：1job.setInputFormatClass(KeyValueTextInputFormat.class);这条语句

2015-07-15 09:56:22 628

转载 MapReduce中的分区方法Partitioner

问题导读：1.Partitioner分区类的作用是什么？2.getPartition()三个参数分别是什么？3.numReduceTasks指的是设置的Reducer任务数量，默认值是是多少？扩展：如果不同类型的数据被分配到了同一个分区，输出的数据是否还是有序的？在进行MapReduce计算时，有时候需要把最终的输出数据分到不同的文件中，比如按照省份划分的话，需

2015-07-14 10:45:09 687 1

转载从程序角度分析mapreduce原理与代码

1.描述mapper处理的过程？2.调用一次map方法会输出多少键值对？3.对于输出的键值对，默认分区标准是什么？4.分区与reducer任务之间的关系是什么？5.是什么规约？规约的目的是什么？规约是否必须的？6.键相等的键值对调用几次reduce方法？MapReduce运行的时候，会通过Mapper运行的任务读取HDFS中的数据文件，然后调用自己的方法

2015-07-13 17:55:27 437

原创 java的toString

为什么我在类中重写他，当输出该类对象的时候却能显示里面的结果？例如：我输出的是一个对象，却调用到了toString方法public class TTT {private String id;private String name;public void setId(String id) {this.id = id;}public void setName(String

2015-07-13 14:31:47 400

转载彻底了解mapreduce核心Shuffle--解惑各种mapreduce问题

本文合适和对mapreduce有一定了解，并且产生各种问题的同学，算是一个解惑篇。如果刚接触的话，这篇文章很有可能看不下去。建议先了解Hadoop简介(1):什么是Map/ReduceMapReduce 编程模型概述mapreduce是hadoop的核心之一，mapreduce经常让我们产生各种困惑，我们只是知道什么是map，什么是renduce，甚至我们已经熟悉了mapred

2015-07-13 13:49:45 367

转载 Hive性能调校

1. 设置hive.map.aggr=true，提高HiveQL聚合的执行性能。这个设置可以将顶层的聚合操作放在Map阶段执行，从而减轻清洗阶段数据传输和Reduce阶段的执行时间，提升总体性能。缺点：该设置会消耗更多的内存。注：顶层的聚合操作（top-levelaggregation operation）,是指在group by语句之前执行的聚合操作。例如，

2015-07-08 17:46:22 497

转载深入浅出数据仓库中SQL性能优化之Hive篇

深入浅出数据仓库中SQL性能优化之Hive篇http://www.aboutyun.com/thread-11349-1-1.html问题导读1、如何理解数据仓库中SQL之Hive整体优化？2、怎样对Job整体优化？3、如何减少Job数？摘要：Hive查询生成多个map reduce job，一个map reduce job又有map，reduce，

2015-07-08 16:07:23 748

翻译让你真正明白什么是hive

导读：对于一个事物的认识，存在几种情况1.没有接触，不知道这个事物是什么，所以不会产生任何问题。2.接触了，但是不知道他是什么，反正我每天都在用。3.有一定的了解，不够透彻。那么hive，1.我们对它了解多少？2.它到底是什么？3.hive和hadoop是什么关系？扩展：hbase和hive是什么关系？Hive最初是应Facebook每天产生

2015-07-08 13:17:00 514

转载让你彻底明白hive数据存储各种模式

问题导读1.hive数据分为那两种类型？2.什么表数据？3.什么是元数据？4.Hive表里面导入数据的本质什么？5.表、分区、桶之间之间的关系是什么？6.外部表和表的区别是什么？Hive的数据分为表数据和元数据，表数据是Hive中表格（table）具有的数据；而元数据是用来存储表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目

2015-07-08 11:34:52 1735

转载 hive内部表与外部表区别详细介绍

问题导读：1.创建内部表与外部表的区别是什么？2.external关键字的作用是什么？3.外部表与内部表的区别是什么？4.删除表的时候，内部表与外部表有什么区别？5.load data local inpath '/home/wyp/data/wyp.txt' into table wyp;的过程是什么样子的？6.磁盘，hdfs,hive表他们之间的过程是什么样子的？

2015-07-08 10:31:30 1219

转载 Mapper过程中Combiner的作用

我们可以带着下面问题来阅读为什么需要在Mapper端进行归约处理？为什么可以在Mapper端进行归约处理？既然在Mapper端可以进行归约处理，为什么在Reducer端还要处理？我们知道，MapReduce是分为Mapper任务和Reducer任务，Mapper任务的输出，通过网络传输到Reducer任务端，作为输入。在Reduc

2015-07-03 11:37:25 675

转载用 Ganglia 监控基于 Biginsights 的 HBase 集群性能

问题导读1.BigInsights和HBase的区别有哪些？2.Ganglia如何部署？序言随着数据爆发式增长时代的来临，各种云计算平台也不断的被推广出来。IBM 开发了 BigInsights 云计算平台，该平台包括 Hadoop 和 HBase 等底层开源项目，它可以帮助企业从大量的数据中挖掘出隐藏的商业价值。BigInsight

2015-07-02 13:47:32 650

翻译 mapreduce任务执行过程详细分析--源码级分析

本人适合对mapreduce有一定经验人来阅读，对于新手来讲，只是阅读前面会有收获不少，但是到了后面就会有些看不懂，可以简单了解。如果对mapreduce有了半年的编程经验并且善于思考，或许这是一篇不错的文章。问题导读：1.mapreduce是一个分布式编程，那么他的输入参数是什么？2.mapreduce的起初key与value的来源是什么？3.map函数中key与valu

2015-07-01 14:25:26 4116 1

yanhan_huang的专栏