hdfs理论知识

埼玉的腿毛

已于 2023-05-22 10:03:58 修改

阅读量59

点赞数

文章标签： hdfs hadoop 大数据

于 2023-03-29 00:04:03 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_53589204/article/details/129827979

版权

hdfs：－Hadoop分布式文件系统（Hadoop Distributed File System）

特点：－高容错：数据多副本，副本丢失后自动恢复

－高可用：NameNode HA，安全模式

－高扩展：10K节点规模

－简单一致性模型：一次写入多次读取，支持追加，不允许修改

－流式数据访问：批量读而非随机读，关注吞吐量而非时间

－大规模数据集：典型文件大小GB~TB级，百万以上文件数量， PB以上数据规模

－构建成本低且安全可靠：运行在大量的廉价商用机器上，硬件错误是常态，提供容错机制

mapreduce －面向批处理的分布式计算框架

－高容错：任务失败，自动调度到其他节点重新执行

－高扩展：计算能力随着节点数增加，近似线性递增

－适用于海量数据的离线批处理

－降低了分布式编程的门槛

YARN：－分布式通用资源管理系统－负责集群资源的统一管理

－专注于资源管理和作业调度

－通用：适用各种计算框架，如：MapReduce、Spark

－高可用：ResourceManager高可用、HDFS高可用

－高扩展

SPARK：高性能分布式通用计算引擎

－计算高效：内存计算、Cache缓存机制、DAG引擎、多线程池模型

－通用易用：适用于批处理、交互式计算、流处理、机器学习、图计算等多种场景

－运行模式多样：Local、Standalone、YARN/Mesos

Hive：－Hadoop数据仓库：企业决策支持－SQL引擎：对海量结构化数据进行高性能的SQL查询

－提供类SQL查询语言

－支持命令行或JDBC/ODBC

－提供灵活的扩展性

－提供复杂数据类型、扩展函数、脚本等

HBase：－分布式NoSQL数据库

－高性能：支持高并发写入和查询

－高可用：HDFS高可用、Region高可用

－高扩展：数据自动切分和分布，可动态扩容，无需停机

－海量存储：单表可容纳数十亿行，上百万列

ElasticSearch

开源的分布式全文检索引擎

基于Lucene实现全文数据的快速存储、搜索和分析

埼玉的腿毛

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。