hdfs:-Hadoop分布式文件系统(Hadoop Distributed File System)
特点:-高容错:数据多副本,副本丢失后自动恢复
-高可用:NameNode HA,安全模式
-高扩展:10K节点规模
-简单一致性模型:一次写入多次读取,支持追加,不允许修改
-流式数据访问:批量读而非随机读,关注吞吐量而非时间
-大规模数据集:典型文件大小GB~TB级,百万以上文件数量, PB以上数据规模
-构建成本低且安全可靠:运行在大量的廉价商用机器上,硬件错误是常态,提供容错机制
mapreduce -面向批处理的分布式计算框架
-高容错:任务失败,自动调度到其他节点重新执行
-高扩展:计算能力随着节点数增加,近似线性递增
-适用于海量数据的离线批处理
-降低了分布式编程的门槛
YARN:-分布式通用资源管理系统-负责集群资源的统一管理
-专注于资源管理和作业调度
-通用:适用各种计算框架,如:MapReduce、Spark
-高可用:ResourceManager高可用、HDFS高可用
-高扩展
SPARK:高性能分布式通用计算引擎
-计算高效:内存计算、Cache缓存机制、DAG引擎、多线程池模型
-通用易用:适用于批处理、交互式计算、流处理、机器学习、图计算等多种场景
-运行模式多样:Local、Standalone、YARN/Mesos
Hive:-Hadoop数据仓库:企业决策支持-SQL引擎:对海量结构化数据进行高性能的SQL查询
-提供类SQL查询语言
-支持命令行或JDBC/ODBC
-提供灵活的扩展性
-提供复杂数据类型、扩展函数、脚本等
HBase:-分布式NoSQL数据库
-高性能:支持高并发写入和查询
-高可用:HDFS高可用、Region高可用
-高扩展:数据自动切分和分布,可动态扩容,无需停机
-海量存储:单表可容纳数十亿行,上百万列
ElasticSearch
开源的分布式全文检索引擎
基于Lucene实现全文数据的快速存储、搜索和分析