前言
提示:最近简单了解了一些大数据的常用组件,记录一下自己的理解。
一、Hadoop
Hadoop 是由 java 语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部件是 HDFS 与 MapReduce。
HDFS 为海量的数据提供了存储,而 MapReduce 为海量的数据提供了计算:
可以把 HDFS 理解为一个分布式的,有冗余备份的,可以动态扩展的用来存储大规模数据的大硬盘;
把 MapReduce 理解成为一个计算引擎,按照 MapReduce 的规则编写 Map 计算 Reduce 计算的程序,可以完成计算任务。
二、HDFS
HDFS 是 Hadoop 项目的一个子项目,是 Hadoop 应用下的分布式文件系统,引入存放文件元数据信息的服务器 Namenode 和实际存放数据的服务器 Datanode,对数据进行分布式储存和读取。
提示:分布式文件系统(Distributed File System,DFS)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点(可简单的理解为一台计算机)相连;或是若干不同的逻辑磁盘分区或卷标组合在一起而形成的完整的有层次

本文介绍了Hadoop及其组件HDFS、Parquet和Kudu。Hadoop是分布式分析应用的开源框架,HDFS是其分布式文件系统,适合处理大规模数据。Parquet是列式存储格式,提升查询效率。Kudu则结合了行存和列存的优点,支持高效随机读写及数据分析。
最低0.47元/天 解锁文章
107

被折叠的 条评论
为什么被折叠?



