hdfs原理与操作命令

最新推荐文章于 2024-08-12 13:35:06 发布

旭cooler

最新推荐文章于 2024-08-12 13:35:06 发布

阅读量225

点赞数 1

分类专栏： hadoop 文章标签： hadoop文件系统 hdfs

本文链接：https://blog.csdn.net/weixin_43799054/article/details/89508167

版权

本文介绍了Hadoop分布式文件系统HDFS的工作原理，包括数据存储方式、配置步骤、副本策略、NameNode与DataNode的角色，以及HDFS的常用操作命令。详细阐述了HDFS如何通过分布式集群存储文件，元数据管理，以及Secondary NameNode在数据一致性中的作用。

摘要由CSDN通过智能技术生成

hadoop是一个分布式系统基础架构，最擅长做海量日志分析，用于解决的问题是：

HDFS：海量数据存储

MapReduce：海量数据的分析

YARN：资源管理调度

hdfs的存储方式
在这里插入图片描述
往服务器上写数据时，不是直接把数据放到机子上，而是把整块数据切成很多个小块，每台机器上可以存相同的数据块，这就保证了集群存储和副本保存。客户端访问时，多个服务器还可以并发的为一个客户端服务。

学习状态下的hadoop配置：

修改主机名：vi /etc/sysconfig/network

配置域名解析器：vi /etc/hosts

关闭防火墙：service iptables stop

关闭防火墙自启动服务：chkconfig iptables off

ssh 密钥登录机制：

在这里插入图片描述
core-site.xml:最少有两个配置项

分别为fs.defaultFS、hadoop.tmp.dir

fs.defaultfs表示默认hadoop的文件系统，一般为hdfs://主机名:端口

hadoop.tmp.dir表示hadoop的工作目录

示例：

<configuration>
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://h1:9000</value>
	</property><!-- 指定 hadoop 运行时产生文件的存储路径 --><property>
		<name>hadoop.tmp.dir</name>
		<value>/root/tmp</value>
	</property>
</configuration>

hdfs-site:必须配置的默认值是，dfs.replication，表示HDFS 的数据块的副本存储个数

示例：

<property>
	<name>dfs.replication</name>
	<value>2</value>
	<description>HDFS 的数据块的副本存储个数</description>
</property>

mapred-site.xml的配置信息，mapreduce.framework.name，表示mapreduce程序到哪个集群上面跑，如果不指定为yarn，就只能在本地上跑

mapreduce.framework.name yarn

yarn-site.xml的配置信息，

yarn.resourcemanager.hostname，表示yarn集群的主节点

yarn.nodemanager

最低0.47元/天解锁文章

旭cooler

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录