![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 59
tunyalana
这个作者很懒,什么都没留下…
展开
-
HDFS
分布式文件存储 Hadoop Distributed File Sysytem 缺点:不能实时数据访问(Hbase可以),不允许修改文件,只能追加。 特点:块的概念 名称节点:相当于目录,告诉我们这个数据存在了哪个数据节点上。数据被保存在相应数据节点的linux文件系统中。 ** FsImage ** FsImage不能告诉我们块与数据的映射关系,这个是其他部分来完成的。 数据节点加入我们的集群时,会自己向名称节点汇报自己的数据,名称节点就将这个映射信息加入到表格中,块与数据的映射关系是这样子来的。 **原创 2021-01-11 14:34:02 · 78 阅读 · 0 评论 -
Hadoop集群
Hadoop架构 Tez:构造有向无环图计算。以防重复做,使得计算效率高。 Spark基于内存进行计算 MapReduce基于磁盘进行计算,所以Spark计算性能更好,不需要写磁盘。 Hive:数据仓库,支持SQL语句。Hive将SQL语句转换为一堆MapReduce作业去执行 Pig:基于Hadoop的一个大规模数据分析平台,流数据处理,提供类似SQL的查询语言Pig Latin。语言简单,而达到相同的目的,MapReduce则编程复杂。 Sqoop:数据导入导出,用于Hadoop与传统关系型数据库之间进原创 2021-01-10 10:25:59 · 385 阅读 · 2 评论