- 博客(15)
- 资源 (3)
- 收藏
- 关注
原创 Zookeeper原理架构
本文纯属个人笔记,通俗易懂,转载请附上原文链接!部分资料摘自网络,如有雷同,纯属巧合!Zookeeper到底是什么!?学一个东西,不搞明白他是什么东西,哪还有心情学啊!! 首先,Zookeeper是Apache的一个java项目,属于Hadoop系统,扮演管理员的角色。 然后看到官网那些专有名词,实在理解不了。在Zookeeper的官网上有这么一句话:ZooKeeper is a central
2016-04-22 11:59:44 55213 8
原创 hdfs dfsadmin
bin/hdfs dfsadmin管理HDFSHagrid01@Hagrid01:[/Hagrid/hadoop-2.6.2]bin/hdfs dfsadminUsage: hdfs dfsadminNote: Administrative commands can only be run as the HDFS superuser. **[-report [-live] [-
2016-04-15 16:21:13 2309
原创 Hadoop MapReduce 配置加载机制
前言我们运行Hadoop MapReduce程序之前,都会配置job对象,通常的程序入口如下编写: public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); String[] otherArgs = new GenericOptionsPar
2016-04-14 20:17:27 1119
原创 JAVA集合深入理解,多图解析。
概览1.Collection 接口 类似数学上的集的概念,你能想到哪些方法? 集的大小、添加、删除、批量添加、批量删除、清空。hashCode和equals 是每个类都有的,就是这么简单。2.AbstractCollection ==> Collection的骨干实现那么他都实现了Collection的哪些方法?假设我们去掉他的abstract 关键字,结果如下: 可见,这里只有size 和
2016-04-14 14:05:48 1034
原创 JAVA基础重点难点笔记
1 JAVA中为什么没有多继承机制?是因为菱形继承的问题。 解释: 两个父类继承自同一个基类,两个父类里有一个相同的方法,那么作为子类应该怎么继承这个方法?父类1的还是父类2的?但是实现多个接口则没问题,因为不管哪个接口,调用的都是同一个实现。2 面向对象设计原则• 单一职责原则 – 一个类,最好只做一件事。 • 开放封闭原则 – 软件实体应该是可扩展的,而不可修改的。也就是,对扩展开放,
2016-04-13 21:30:23 2732
原创 Hadoop MapReduce 深入理解!二次排序案例!
1. MapReduce 处理的数据类型1.1 必须实现 org.apache.hadoop.io.Writable 接口。需要实现数据的序列化与反序列化,这样才能在多个节点之间传输数据!示例:public class IntWritable implements WritableComparable<IntWritable> , public interface WritableComparab
2016-04-11 21:04:35 16212 1
原创 Hadoop-Streaming 高级参数
理解以下选项-files <comma separated list of files> specify comma separated files to be copied to the map reduce cluster:缓存文件到HDFS-libjars <comma separated list of jars> specify comma separated jar file
2016-04-09 14:20:59 2022
原创 Hadoop2.6.2 编译
1.Hadoop2.0 之后依赖 protobuf 实现RPC,因此要先安装依赖在hadoop-common-project 下 maven package -DskipTests 编译时会发现缺少依赖包protoc,并提示依赖的版本,可以修改hadoop-common-project 下 pom.xml 文件里边具体的版本(你本机安装的版本),以通过编译。 找到定义处的文件的方法: 在ha
2016-04-09 12:41:56 651
原创 阿里云上安装Git
用yum install git 的话只能安装1.7.1 版本的。要安装最新版本的需要自己编译: //先安装git依赖的包 yum install zlib-devel yum install openssl-devel yum install perl yum install cpio yum install expat-devel yum install gettext-devel
2016-04-07 19:55:44 2401
原创 从Hadoop配置文件深刻理解MapReduce优化
MapReduce优化的入手点– 合理设定Map/Reduce数量 – 如果可能,使用Combiner减少中间数据输出 – 对中间数据和最终结果启用压缩 – 减少Shuffle过程中写入磁盘的数据 – 适当增大每个节点的处理任务的并发度1. 合理设定Map数量Mapper数量不能直接设定1.1 可以通过选择BlockSize间接调整Mapper数量hdfs-site.xml 中• dfs
2016-04-07 15:16:23 852
原创 Vim 使用和技巧
默认进入的是命令模式。i:字符前插入I:行首插入a:字符后插入A:行尾插入o:插入下新行O:插入上新行esc:退回命令模式::编辑模式命令模式的常用命令:set nu 设置行号set nonu 取消行号gg:到第一行G:到最后一行nG到第n行:n:到第n行$:移动光标到行尾^:移动到行首x:删除光标所在的字符nx:删除光标后的n个字符dd:删除光标所在行dG: 删
2016-04-06 17:18:55 533
原创 Hadoop主要配置文件深入理解
1 Hadoop源码加载配置文件原理在Hadoop源码中,通过搜索classpath路径,来直接找到和读取配置的xml文件,使得你的配置在启动时生效。 通过命令bin/hadoop classpath 可以查看当前Hadoop可以识别出来的classpath。 可见,第一条路径就是配置文件的目录,因此源码可以直接使用文件名来获取配置信息。2 Hadoop配置文件的层级关系在Hadoop源码C
2016-04-06 15:32:33 17077 4
原创 MapReduce2.0 原理、架构、应用场景
MapReduce典型应用,WordCount Map阶段:首先将输入数据进行分片,然后对每一片数据执行Mapper程序,计算出每个词的个数,之后对计算结果进行分组,每一组由一个Reducer程序进行处理,到此Map阶段完成。 Reduce阶段:每个Reduce程序从Map的结果中拉取自己要处理的分组(叫做Shuffling过程),进行汇总和排序(桶排序),对排序后的结果运行Reducer程序,
2016-04-06 10:25:43 6335
原创 HDFS 原理、架构、应用
HDFS架构:各个模块的角色Active Namenode(ANN) - 主Master(只有一个) - 管理HDFS的名称空间和数据块映射信息也就是元信息 - 配置副本存放策略 - 处理客户端的读写请求Standby Namenode(SNN) - ANN的热备份 - 定期合并fsimage(HDFS的目录信息)和fsedits(HDFS的目录修改信息),并推送给ANN - 当ANN挂
2016-04-05 11:35:59 663
原创 Hadoop搭建注意事项
经过两次搭建环境实践后,总结搭建原理。1方式 单机 http://blog.csdn.net/xuxiuning/article/details/51013571 2方式 多机 http://blog.csdn.net/xuxiuning/article/details/510184251 Hadoop 各个目录的解释bin:Hadoop管理脚本和使用脚本所在目录, sbin目录下的脚本都是使用
2016-04-01 11:29:51 604
lucene-analyzers-smartcn-5.2.1.jar Smart Jar包
2015-08-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人