hdfs理论知识

hdfs:-Hadoop分布式文件系统(Hadoop Distributed File System)

特点:-高容错:数据多副本,副本丢失后自动恢复

-高可用:NameNode HA,安全模式

-高扩展:10K节点规模

-简单一致性模型:一次写入多次读取,支持追加,不允许修改

-流式数据访问:批量读而非随机读,关注吞吐量而非时间

-大规模数据集:典型文件大小GB~TB级,百万以上文件数量, PB以上数据规模

-构建成本低且安全可靠:运行在大量的廉价商用机器上,硬件错误是常态,提供容错机制

mapreduce -面向批处理的分布式计算框架

-高容错:任务失败,自动调度到其他节点重新执行

-高扩展:计算能力随着节点数增加,近似线性递增

-适用于海量数据的离线批处理

-降低了分布式编程的门槛

YARN:-分布式通用资源管理系统-负责集群资源的统一管理

-专注于资源管理和作业调度

-通用:适用各种计算框架,如:MapReduce、Spark

-高可用:ResourceManager高可用、HDFS高可用

-高扩展

SPARK:高性能分布式通用计算引擎

-计算高效:内存计算、Cache缓存机制、DAG引擎、多线程池模型

-通用易用:适用于批处理、交互式计算、流处理、机器学习、图计算等多种场景

-运行模式多样:Local、Standalone、YARN/Mesos

Hive:-Hadoop数据仓库:企业决策支持-SQL引擎:对海量结构化数据进行高性能的SQL查询

-提供类SQL查询语言

-支持命令行或JDBC/ODBC

-提供灵活的扩展性

-提供复杂数据类型、扩展函数、脚本等

HBase:-分布式NoSQL数据库

-高性能:支持高并发写入和查询

-高可用:HDFS高可用、Region高可用

-高扩展:数据自动切分和分布,可动态扩容,无需停机

-海量存储:单表可容纳数十亿行,上百万列

ElasticSearch

开源的分布式全文检索引擎

基于Lucene实现全文数据的快速存储、搜索和分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值