![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 78
想ai抽
这个作者很懒,什么都没留下…
展开
-
读bigtablel论文笔记——结构部分
bigtable是结构化数据的分布式存储系统。1. 数据结构:1.1 行通过字典书序排序。用户可以根据需要选择合适的行命名,尽量使相关行挨着牌,就可以在查询类似数据时进行快速查询。比如论文中给的maps.google.com,就可以把跟maps.google相关的数据挨着最近,其次是maps。所以这里的行命名比较重要。1.2 列族列族的元素应该是同一类型,后面在数据传输原创 2014-03-01 12:13:34 · 618 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里转载 2014-03-09 11:05:50 · 543 阅读 · 0 评论 -
hadoop中mapreduce的常用类
写这个文章的时候才意识到新旧API是同时存在于1.1.2的hadoop中的。以前还一直纳闷儿为什么有时候是jobClient提交任务,有时是Job...不管API是否更新,下面这些类也还是存在于API中的,经过自己跟踪源码,发现原理还是这些。只不过进行了重新组织,进行了一些封装,使得扩展性更好。所以还是把这些东西从记事本贴进来吧。关于这些类的介绍以及使用,有的是在自己debug中看到的,多数为原创 2014-03-09 17:22:59 · 2404 阅读 · 0 评论 -
hadoop中关于mapreduce的单元测试
这个功能好像是CDH那边开发的。。。1. 首先下载jar包:hadoop-0.21.0-mrunit.jar。(经测试,这个jar包是关联旧API的。请自己根据情况决定)2. 在eclipse的build path中加入此jar包。3. 编写测试程序:package unittest;import java.io.IOException;import java.util原创 2014-03-09 17:48:18 · 834 阅读 · 0 评论 -
hadoop机架感知
背景 分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。 具体到Hadoop集群,由于hadoop的HDFS对数据文件的分布式存放是按照分块blo转载 2014-03-09 10:02:22 · 593 阅读 · 0 评论 -
hadoop中的RPC, namenode和datanode通信原理
1. JobClient(题外话,自己翻译了一下JobClient的运行机制):JobClient是用户提交的信息与JobTracker交互的主要接口。它提供的功能有:提交作业,跟踪作业进度,访问作业报告和进度,获取MR集群的状态等。作业提交过程:a. 检查作业的输入输出是否合乎规范;b. 为作业计算出InputSplit(单个Mapper需要执行的部分);c. 如有需要,为D原创 2014-03-09 10:39:32 · 1953 阅读 · 0 评论 -
注意事项:hadoop中的新API(mapreduce)、旧API(mapred)
结果令小菜很失望,就找到了一个符合理想的帖子。但是通过这个帖子,小菜知道了,mapred代表的是hadoop旧API,而mapreduce代表的是hadoop新的API。OK,小菜在google输入框中输入“hadoop新旧API的区别”,结果很多。看了之后,又结合权威指南归结如下:1. 首先第一条,也是小菜今天碰到这些问题的原因,新旧API不兼容。所以,以前用旧API写的h转载 2014-03-09 13:16:13 · 862 阅读 · 0 评论 -
官方译文【hadoop yarn 运行原理剖析】
虽然效率比较低,还是感觉翻译一下走脑走心。。。。不见得全背过,思想犹存。。。犹存。。Hadoop MapReduce Next Generation -Writing YARN Applications[ Go Back ]Hadoop MapReduce Next Generation - Writing YARN ApplicationsPurposeConce原创 2014-03-14 11:47:27 · 1851 阅读 · 0 评论 -
hadoop杂记
hadoop中的job schedule1. 默认是FIFO先按照按照优先级,后按照时间顺序进行执行JobTracker没有什么负担,调度方法很简单。但是忽略了不同作业之间的需求差异,很可能造成一定程度的调度倾斜。2. 公平调度器(一般改造用这种)分了多个pool,job会被提交到某个pool中。可以设置最小的task slot,成为miniShare.支持优先级,支持资源原创 2014-03-14 09:19:23 · 742 阅读 · 0 评论 -
简短使用的HADOOP2版本的安装配置
hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。注意:apache提供的hadoop-2.2.0的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.2.0就需要重新在64操作系统上重新编译前期准备就不详细说了,前边的都有1.修改Linux主机名2.修改IP3.修改主机转载 2014-03-13 09:29:54 · 1461 阅读 · 0 评论 -
MapReduce: 提高MapReduce性能的七点建议[译]
Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人一样,找出关键的“症状”,对于不同的症状有不同的诊断和处理方式。 在医学领域,没转载 2014-03-14 11:35:21 · 705 阅读 · 0 评论 -
hive深度理解与调优
参考一些文件弄过来。。。。。读了一遍,没有完全记住。呵呵,留着以后当手册用,没事儿来翻。8.1 针对每次简单查询都会使用mapreduce,设置hiveconf hive.fetch.task.conversion=more。通过Fetch 获取数据,不再经过mapreduce8.2 第一部分:Hadoop 计算框架的特性什么是数据倾斜•由于数据的不均衡原因,导致数转载 2014-03-14 08:58:09 · 2700 阅读 · 0 评论 -
云计算环境搭建: hadoop-1.1.2 + zookeeper-3.4.5 + hbase-0.94.7
看了长时间的原理和机制,终于有了两天闲工夫,系统的实施一下环境搭建。综合参考官网文档以及其他版本安装的脚步,写下来,加深一下自己的理解与记忆。清口水果:1. 安装JDK,配置环境变量,javac验证;2. 确定实验需要使用的用户,了解用户角色及权限范围;(貌似除了ubuntu自动关闭防火墙外,其他linux需要弄一下)3. 确定机器ip,改写/etc/hosts使能够解析地原创 2014-03-03 09:11:32 · 1543 阅读 · 0 评论 -
编译hadoop-eclipse-plugin-1.1.2.jar插件
hadoop自0.20.x版本后不再提供现成的hadoop-eclipse插件而是给出了源码自行编译。使用任意一个workspace打开你的eclipse把Hadoop程序目录的src/contrib的eclipse-plugin项目导入到eclipse导入eclipse后,项目名称会变成MapReduceTools。修改你的编译环境(jdk环境)在项目的根目录下创转载 2014-03-01 23:24:30 · 1515 阅读 · 0 评论 -
eclipse与hadoop
1. 插件的编译与应用http://blog.csdn.net/xiangaichou/article/details/20244735按照这篇文章做的。试了很多次没有成功,后面莫名其妙的就好了。起码证明这种方式没有错误,所以存下。另外看到一篇文章:http://f.dataguru.cn/thread-167602-1-1.html2. failure原创 2014-03-01 23:35:25 · 721 阅读 · 1 评论 -
eclipse远程调试Tomcat, Hadoop集群等
主导是JPDA(Java Platform Debugger Architecture), 它支持java中的各种调试,由两个接口(JVM Tool Interface和JDI)、一个协议(JDWP)和两个用于合并它们的软件组件(后端和前端)组成。参见http://www.ibm.com/developerworks/cn/opensource/os-eclipse-javadebug/JDW原创 2014-03-02 16:19:15 · 2023 阅读 · 0 评论 -
pig的官方安装
自己按照官网装的,顺便把官网的文档给翻译了。如果错误,敬请提示!有部分问题,烦劳大神解压。安装pig:1. 下载安装hadoop1.1.22. 下载安装JDK1.63. 下载pig,解压到指定目录。pig的命令在bin目录中,配置信息在conf中的pig.properties中。 4. 将pig的bin目录加入到path中去。运行pig-version原创 2014-03-10 22:03:59 · 1264 阅读 · 0 评论 -
hive 的 test case
src/data 目录下面是输入数据 src/ql/src/test/queries下面是测试用例,clientpositive是运行成功的用例,clientnegative是运行失败,返回非0的用例。 src/ql/src/test/results 下面是测试用例对应的输出结果。如src/ql/src/test/queries/case_sensitivity.q对应的输出结果是src/转载 2014-03-06 16:21:23 · 891 阅读 · 0 评论 -
vmware下虚拟机自动换ip的解决办法
最近学习hadoop的过程中,频繁出现vmware自动换vm的ip的问题,导致原来已经配好的SSH互信不能成功运行。1. 首先在vmware中设定网段:Edit-》visual network editor -》NAT(一般是最后一个)-》左下方设置网段-》在DHCP setting中查看设置范围;2. 查看当前机器的DNS地址;3. 进入linux系统,修改为静态ip,并指定原创 2014-03-07 09:11:18 · 10344 阅读 · 1 评论 -
hive与mysql的整合
hive与mysql的整合1. 配置文件hive-site.xml的修改 javax.jdo.option.ConnectionURL jdbc:mysql://will-vm1:3306/hive?createDatabaseIfNotExist=true JDBC connect string for a JDBC metastorejavax.jdo原创 2014-03-06 11:13:28 · 1157 阅读 · 0 评论 -
hive-0.9.0的安装
1. 下载hive-0.9.0,解压;2. 进入conf目录,把4个文件都cp一份,去掉template,hive-default.xml改default为site:3. 配置环境变量$HIVE_HOME和$HADOOP_HOME以及$PATH:这里配置了$HADOOP_HOME后,在启动或者关闭hadoop时,可能会出现警告信息:解决办法: export HADO原创 2014-03-05 22:27:29 · 1260 阅读 · 0 评论 -
使用QJM方式实现hadoop中的HA
好吧。。。我是文档控。。翻译了官网。。。。总觉得读官网才有原味。HDFS 使用Quorum JournalManager实现高可用性(HA)HDFS High Availability Using the Quorum Journal ManagerPurposeNote: Using the Quorum Journal Manager or Conventi原创 2014-03-13 09:27:15 · 1643 阅读 · 0 评论 -
抽象zookeeper中的功能及实现原理
因为hadoop生态系统中的各个组件都会跟zookeeper打交道,边边角角之后,又综合的研习了一遍zookeeper的基本功能和实现原理。没有敢说剖析更难能,在这里只是总结一下zookeeper中的主导思想:1. 建立类似文件系统的东西,来进行nameservice的管理,这个思想可以支持zookeeper提供的命名服务;2. 在每个znode放置watcher,实现全部资源的任何变原创 2014-03-13 12:08:14 · 738 阅读 · 0 评论 -
官网HDFS Federation的理解与配置
HDFS FederationHDFS FederationBackgroundMultiple Namenodes/NamespacesKey BenefitsFederation ConfigurationConfiguration:Formatting NamenodesUpgrading from older release to 0原创 2014-03-13 09:33:12 · 2504 阅读 · 0 评论 -
hadoop2.2.0-64位 苦逼历程
安装环境决定了我的苦逼路程:原创 2014-05-30 13:49:14 · 1552 阅读 · 0 评论