hdfs原理与操作命令

本文介绍了Hadoop分布式文件系统HDFS的工作原理,包括数据存储方式、配置步骤、副本策略、NameNode与DataNode的角色,以及HDFS的常用操作命令。详细阐述了HDFS如何通过分布式集群存储文件,元数据管理,以及Secondary NameNode在数据一致性中的作用。
摘要由CSDN通过智能技术生成

hadoop是一个分布式系统基础架构,最擅长做海量日志分析,用于解决的问题是:

HDFS:海量数据存储

MapReduce:海量数据的分析

YARN:资源管理调度

​ hdfs的存储方式
在这里插入图片描述
往服务器上写数据时,不是直接把数据放到机子上,而是把整块数据切成很多个小块,每台机器上可以存相同的数据块,这就保证了集群存储和副本保存。客户端访问时,多个服务器还可以并发的为一个客户端服务。

学习状态下的hadoop配置:

修改主机名:vi /etc/sysconfig/network

配置域名解析器:vi /etc/hosts

关闭防火墙:service iptables stop

关闭防火墙自启动服务:chkconfig iptables off

ssh 密钥登录机制:

在这里插入图片描述
core-site.xml:最少有两个配置项

分别为fs.defaultFS、hadoop.tmp.dir

fs.defaultfs表示默认hadoop的文件系统,一般为hdfs://主机名:端口

hadoop.tmp.dir表示hadoop的工作目录

示例:

<configuration>
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://h1:9000</value>
	</property><!-- 指定 hadoop 运行时产生文件的存储路径 --><property>
		<name>hadoop.tmp.dir</name>
		<value>/root/tmp</value>
	</property>
</configuration>

hdfs-site:必须配置的默认值是,dfs.replication,表示HDFS 的数据块的副本存储个数

示例:

<property>
	<name>dfs.replication</name>
	<value>2</value>
	<description>HDFS 的数据块的副本存储个数</description>
</property>

mapred-site.xml的配置信息,mapreduce.framework.name,表示mapreduce程序到哪个集群上面跑,如果不指定为yarn,就只能在本地上跑

mapreduce.framework.name yarn

yarn-site.xml的配置信息,

yarn.resourcemanager.hostname,表示yarn集群的主节点

yarn.nodemanager

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值