http://www.powerxing.com/install-hadoop/
单机与伪分布式区别就是
伪分布式依靠软件实现了一个hdfs 伪分布式读取的则是 HDFS 上的数据
在单节点上以伪分布式的方式运行 节点既作为 NameNode 也作为 DataNode
直接运行hadoop 都是在hadoop目录下 运行
- sbin/start-dfs.sh 这样的操作来运行hadoop功能
而eclipse 下有hadoop插件
封装之后方便直接运行hadoop 的map reduce类似的模型
hadoop是一个分布式系统架构 核心架构 就是hdfs namenode datanode linux集群
但集群只是底层架构 基于之上的具体数据处理又是另一个层面的事了
集群对于编程只是一个底层的架构 具体数据处理则主要如hadoop权威指南上所讲的内容那样的东西了
到了那一个层面 集群概念本身又不是那么重要
hadoop->分布式系统架构
hadoop最先提供了一个可以在集群上运行的架构
实现了集群 之后在这架构之上则是具体的编程实现
用户可以在不了解分布式底层细节的情况下,开发分布式程序
MapReduce和Hadoop是相互独立的
HDFS和MapReduce实现是完全分离的,并不是没有HDFS就不能MapReduce运算。
datanode 必须有两个保证数据的冗余 (同时也是 tasktracker)
namenode(dfs/master)
job tracker (map/reduce的master)
集群是由一个Namenode和若干datanode组成,而secondary作为Namenode的一个备份'
jobtracker负责任务的调度,而tasktracker则是负责任务的执行
因此,tasktracker是运行在datanode的,而Namenode和jobtracker则无需在同一机器上面
hadoop2以后就没有tasktracker 与jobtracker 了,master包含如下进程
zxc7928932@zxc7928932-X550VC:~$ jps
11763 ResourceManager
11892 NodeManager
18054 DataNode
19399 Jps
18279 SecondaryNameNode
17915 NameNode
18716 org.eclipse.equinox.launcher_1.3.0.v20140415-2008.jar
Hadoop 新 MapReduce 框架 Yarn 详解
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/
http://www.aboutyun.com/thread-7678-1-1.html