hadoop的组成和hadoop-1.2.1.tar.gz的安装

乐之者java

于 2020-07-15 18:54:37 发布

阅读量360

点赞数

分类专栏：大数据文章标签：分布式 hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaozhuangyumaotao/article/details/107367798

版权

大数据专栏收录该内容

34 篇文章 4 订阅

订阅专栏

hadoop的组成

hdfs(来源于google的gfs)

mapreduce(简称mr,是一个离线的分布式计算框架。和其他几种计算框架的区别：storm是流式计算框架，适合实时计算。spark是内

存计算框架，适合做快速得到结果的计算)

hbase(来源于谷歌的bigtable)

hadoop结构

name node（存放文件拥有者，权限，文件由哪些块组成(由启动时由datanode上报)+secondary name node +data node (由多个block组成)

block：在hadoop 1.x中默认是64m，每个block默认3个副本。副本放置的策略：放到不同的rack（机架上）

namenode的流程

name node启动后里面的信息会被加载到内存，name node中存放的metadata信息（由那几个块组成等）同时也会保存到磁盘上，即fsimage edits记录对fsimage的操作，由secondary nn帮助nn合并edits和fsimage为新的fsimage，在合并的时间段内name node上产生feditsnew（合并完变为fedits）

snn合并的时机：

1.根据配置文件fs.checkpoint.period 3600

2.或者 edits文件大小fs.checkpoint.size 64m

datanode：默认每3秒发送心跳到nn，10min内如果nn如果收不到信息，则认为该datanode失效，nn会把其中的block拷贝的

其他的datanode上

hadoop现在常用的是哪个版本？

hadoop-1.2.1.tar.gz已经过时了， hadoop 2.x现在用的比较多，企业中以此为主

hadoop最好安装在linux上， start-all.sh(启动mapreduce和hdfs两个)

伪分布式:多个节点都在同一台机器上

完全分布式：多个节点在多台不同的机器上

先在node1上安装hadoop-1.2.1.tar.gz，之后改配置文件如下：

1.namenode

conf/core-site.xml:

<configuration>

<property>

<name>fs.default.name</name>

<value>hdfs://node1:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/home/zhao/hadoopws</value>

</property>

</configuration>

2.hdfs的block配置=<datanode主机个数

conf/hdfs-site.xml:

<configuration>

<property>

<name>dfs.replication</name>

<value>2</value>

</property>

</configuration>

3.配置datanode的主机名(也可写ip)：

vi slaves:

node2

node3

4.配置snn（规则：不要和nn在一个机器上）:

vi masters:

node2

5.配置hadoop的java——home:

vi hadoop-env.sh:

java_home=/usr/jdk-1.7.70

linux设置免密码登录：

想要从1。1.1.1登录到1.1.1.2：

在1上：

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa ---》id_dsa(自己使用的) id_dsa.pub(可以给别人使用的)

本地免密码登录只需要执行 cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys，然后ssh 1就不用输入密码了

在2上：

把1中 ~/.ssh/id_dsa.pub 的内容拷贝到2的 ~/.ssh/authorized_keys文件中:cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys,

先拷贝到2中把文件id_dsa.pub

拷贝文件到远程机器：

scp id_dsa.pub root@node2:~

刚才只在node1中解压了hadoop，

scp -r ~/hadoop.tar.gz root@node2:~

scp -r ~/hadoop.tar.gz root@node3:~

确保所有节点配置文件都一样：

scp -r ~/hadoop/conf/* root@node2:~/hadoop/conf/

bin/hadoop namenode -format

bin/start-all.sh bin/start-dfs.sh stop-all.sh

访问(hosts:1 node1)：

http://node1:50070 rpc端口是9000

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

乐之者java CSDN认证博客专家

CSDN认证企业博客

531: 原创

4万+: 周排名

144万+: 总排名

66万+: 访问

: 等级

8605: 积分

72: 粉丝

217: 获赞

70: 评论

933: 收藏

私信

关注

热门文章

分类专栏

linux 74篇
大数据 34篇
数据库 29篇
mybatis 3篇
前端 175篇
poi 2篇
tomcat服务器 4篇
java 120篇
jvm 2篇
vcs 13篇
eclipse 1篇
分布式 10篇
高可用 6篇
spring 22篇
mq 4篇
nosql 20篇
左传 1篇
freemarker 1篇
编程知识 7篇

最新评论

zookeeper在windows下的使用
沃码: 故意的吧，直接双击zkServer.cmd不一样启动
java获取请求者真实的公网ip地址
Ancient-One-12138: 意思就是服务器在在局域网环境，获取的就是请求的局域网IP，服务器在公网环境，获取的就是公网IP是吧
web.xml配置cookie-config的secure为true时引发的血案
Genyu_8: 很好的文章,我早上看到这个文章,跟我的情况很符合,改了对应的代码,但是本地环境没生效,来来回回测了半年,后面实在没办法,直接一狠心,代码更新发布到测试环境,直接解决,真的吐血.
keepalived配置tomcat的高可用
qq_39024223: 检测脚本中的启动tomcat命令不成功如何处理
html中的details与summary
weixin_72866123: 怎么强制不换行

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。