python+大数据学习day4

最新推荐文章于 2024-08-05 09:02:20 发布

岁月不静好456

最新推荐文章于 2024-08-05 09:02:20 发布

阅读量1.2k

点赞数 1

文章标签： big data 学习 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_56306635/article/details/123363890

版权

HDFS

HDFS（Hadoop Distributed File System ），意为： Hadoop 分布式文件系统 。

是Apache Hadoop核心组件之一，作为大数据生态圈最底层的分布式存储服务而存在。也可以说大数据首先要解决的问题就是海量数据的存储问题。

HDFS主要是解决大数据如何存储问题的。分布式意味着是HDFS是横跨在多台计算机上的存储系统。

HDFS是一种能够在普通硬件上运行的分布式文件系统，它是高度容错的，适应于具有大数据集的应用程序，它非

常适于存储大型数据 (比如 TB 和 PB)。

HDFS使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统。

适用场景：大文件、数据流式访问、一次写入多次读取、低成本部署、廉价PC、高容错

HDFS shell操作 hadoop fs [generic options]

hadoop fs -ls file:/// # 操作本地文件系统

hadoop fs -ls hdfs://node1:8020/ # 操作 HDFS 分布式文件系统

hadoop fs -ls / # 直接根目录，没有指定协议将加载读取 fs.defaultFS 值

hadoop fs -mkdir [-p] <path> ... -p会沿着路径创建父目录

hadoop fs -ls [-h] [-R] [<path> ...] -h 人性化显示文件大小 -R递归查看指定目录及其子目录

hadoop fs -put [-f] [-p] <localsrc> ... <dst> -f 覆盖目标文件（已存在下） -p 保留访问和修改时间，所有权和权限。上传

hadoop fs -cat <src> ... 查看hdfs文件内容，对于大文件读取要慎重

hadoop fs -get [-f] [-p] <src> ... <localdst> -f 覆盖目标文件（已存在下） -p 保留访问和修改时间，所有权和权限。下载

hadoop fs -cp [-f] <src> ... <dst> -f覆盖 拷贝

hadoop fs -appendToFile <localsrc> ... <dst> 追加小文件合并

hadoop fs -mv <src> ... <dst> 移动 重命名

HDFS工作流程与机制

主角色：namenode：

NameNode是Hadoop分布式文件系统的核心，架构中的主角色。

NameNode维护和管理文件系统元数据，包括名称空间目录树结构、文件和块的位置信息、访问权限等信息。

从角色： datanode：

DataNode是Hadoop HDFS中的从角色，负责具体的数据块存储。

DataNode的数量决定了HDFS集群的整体数据存储能力。通过和NameNode配合维护着数据块

核心概念 --Pipeline 管道

核心概念 --ACK 应答响应

核心概念--默认3副本存储策略

 第一块副本：优先客户端本地，否则随机

 第二块副本：不同于第一块副本的不同机架。

 第三块副本：第二块副本相同机架不同机器。

岁月不静好456

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python+大数据学习day4

HDFSHDFS（Hadoop Distributed File System ），意为：Hadoop分布式文件系统。是Apache Hadoop核心组件之一，作为大数据生态圈最底层的分布式存储服务而存在。也可以说大数据首先要解决的问题就是海量数据的存储问题。 HDFS主要是解决大数据如何存储问题的。分布式意味着是HDFS是横跨在多台计算机上的存储系统。 HDFS是一种能够在普通硬件上运行的分布式文件系统，它是高度容错的，适应于具有大数据集的应用程序，它非常适于存储大型数据 (比
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。