2016年04月_Mr_Hagrid

09月 08月 04月 03月 02月

原创 Zookeeper原理架构

本文纯属个人笔记，通俗易懂，转载请附上原文链接！部分资料摘自网络，如有雷同，纯属巧合！Zookeeper到底是什么！？学一个东西，不搞明白他是什么东西，哪还有心情学啊！！首先，Zookeeper是Apache的一个java项目，属于Hadoop系统，扮演管理员的角色。然后看到官网那些专有名词，实在理解不了。在Zookeeper的官网上有这么一句话：ZooKeeper is a central

2016-04-22 11:59:44 55213 8

原创 hdfs dfsadmin

bin/hdfs dfsadmin管理HDFSHagrid01@Hagrid01:[/Hagrid/hadoop-2.6.2]bin/hdfs dfsadminUsage: hdfs dfsadminNote: Administrative commands can only be run as the HDFS superuser. **[-report [-live] [-

2016-04-15 16:21:13 2309

原创 Hadoop MapReduce 配置加载机制

前言我们运行Hadoop MapReduce程序之前，都会配置job对象，通常的程序入口如下编写： public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); String[] otherArgs = new GenericOptionsPar

2016-04-14 20:17:27 1119

原创 JAVA集合深入理解，多图解析。

概览1.Collection 接口类似数学上的集的概念，你能想到哪些方法？集的大小、添加、删除、批量添加、批量删除、清空。hashCode和equals 是每个类都有的，就是这么简单。2.AbstractCollection ==> Collection的骨干实现那么他都实现了Collection的哪些方法？假设我们去掉他的abstract 关键字，结果如下：可见，这里只有size 和

2016-04-14 14:05:48 1034

原创 JAVA基础重点难点笔记

1 JAVA中为什么没有多继承机制？是因为菱形继承的问题。解释：两个父类继承自同一个基类，两个父类里有一个相同的方法，那么作为子类应该怎么继承这个方法？父类1的还是父类2的？但是实现多个接口则没问题，因为不管哪个接口，调用的都是同一个实现。2 面向对象设计原则• 单一职责原则 – 一个类，最好只做一件事。 • 开放封闭原则 – 软件实体应该是可扩展的，而不可修改的。也就是，对扩展开放，

2016-04-13 21:30:23 2732

原创 Hadoop MapReduce 深入理解！二次排序案例！

1. MapReduce 处理的数据类型1.1 必须实现 org.apache.hadoop.io.Writable 接口。需要实现数据的序列化与反序列化，这样才能在多个节点之间传输数据！示例：public class IntWritable implements WritableComparable<IntWritable> ， public interface WritableComparab

2016-04-11 21:04:35 16212 1

原创 Hadoop-Streaming 高级参数

理解以下选项-files <comma separated list of files> specify comma separated files to be copied to the map reduce cluster:缓存文件到HDFS-libjars <comma separated list of jars> specify comma separated jar file

2016-04-09 14:20:59 2022

原创 Hadoop2.6.2 编译

1.Hadoop2.0 之后依赖 protobuf 实现RPC，因此要先安装依赖在hadoop-common-project 下 maven package -DskipTests 编译时会发现缺少依赖包protoc，并提示依赖的版本，可以修改hadoop-common-project 下 pom.xml 文件里边具体的版本（你本机安装的版本），以通过编译。找到定义处的文件的方法：在ha

2016-04-09 12:41:56 651

原创阿里云上安装Git

用yum install git 的话只能安装1.7.1 版本的。要安装最新版本的需要自己编译： //先安装git依赖的包 yum install zlib-devel yum install openssl-devel yum install perl yum install cpio yum install expat-devel yum install gettext-devel

2016-04-07 19:55:44 2401

原创从Hadoop配置文件深刻理解MapReduce优化

MapReduce优化的入手点– 合理设定Map/Reduce数量 – 如果可能，使用Combiner减少中间数据输出 – 对中间数据和最终结果启用压缩 – 减少Shuffle过程中写入磁盘的数据 – 适当增大每个节点的处理任务的并发度1. 合理设定Map数量Mapper数量不能直接设定1.1 可以通过选择BlockSize间接调整Mapper数量hdfs-site.xml 中• dfs

2016-04-07 15:16:23 852

原创 Vim 使用和技巧

默认进入的是命令模式。i：字符前插入I：行首插入a：字符后插入A：行尾插入o：插入下新行O：插入上新行esc：退回命令模式:：编辑模式命令模式的常用命令：set nu 设置行号set nonu 取消行号gg：到第一行G：到最后一行nG到第n行:n：到第n行$：移动光标到行尾^：移动到行首x：删除光标所在的字符nx：删除光标后的n个字符dd：删除光标所在行dG: 删

2016-04-06 17:18:55 533

原创 Hadoop主要配置文件深入理解

1 Hadoop源码加载配置文件原理在Hadoop源码中，通过搜索classpath路径，来直接找到和读取配置的xml文件，使得你的配置在启动时生效。通过命令bin/hadoop classpath 可以查看当前Hadoop可以识别出来的classpath。可见，第一条路径就是配置文件的目录，因此源码可以直接使用文件名来获取配置信息。2 Hadoop配置文件的层级关系在Hadoop源码C

2016-04-06 15:32:33 17077 4

原创 MapReduce2.0 原理、架构、应用场景

MapReduce典型应用，WordCount Map阶段：首先将输入数据进行分片，然后对每一片数据执行Mapper程序，计算出每个词的个数，之后对计算结果进行分组，每一组由一个Reducer程序进行处理，到此Map阶段完成。 Reduce阶段：每个Reduce程序从Map的结果中拉取自己要处理的分组（叫做Shuffling过程），进行汇总和排序（桶排序），对排序后的结果运行Reducer程序，

2016-04-06 10:25:43 6335

原创 HDFS 原理、架构、应用

HDFS架构：各个模块的角色Active Namenode(ANN) - 主Master（只有一个） - 管理HDFS的名称空间和数据块映射信息也就是元信息 - 配置副本存放策略 - 处理客户端的读写请求Standby Namenode(SNN) - ANN的热备份 - 定期合并fsimage（HDFS的目录信息）和fsedits（HDFS的目录修改信息），并推送给ANN - 当ANN挂

2016-04-05 11:35:59 663

原创 Hadoop搭建注意事项

经过两次搭建环境实践后，总结搭建原理。1方式单机 http://blog.csdn.net/xuxiuning/article/details/51013571 2方式多机 http://blog.csdn.net/xuxiuning/article/details/510184251 Hadoop 各个目录的解释bin：Hadoop管理脚本和使用脚本所在目录， sbin目录下的脚本都是使用

2016-04-01 11:29:51 604

lucene-analyzers-smartcn-5.2.1.jar Smart Jar包

lucene-analyzers-smartcn-5.2.1.jar Smart Jar包，在Solr中的使用参考http://blog.csdn.net/xuxiuning/article/details/47750701

2015-08-18

maya2008 32位 virtools插件 maya导出nmo格式用

2011-12-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人