大数据学习
文章平均质量分 89
云日松
云日明松雪,溪山进晚风
展开
-
大数据技术原理与应用----大数据处理架构Hadoop
(1)HDFS:分布式文件存储;(2)YARN:底层的资源调度管理;(3)MapReduce:离线计算,基于磁盘(一般不用于实时计算);(4)Tez:用于把MapReduce的很多作业优化构建一个有向无环图,保证获得最好的处理;(5)Spark:基于内存计算,性能比MapReduce高一个等级;(6)Hive:数据仓库,提供企业决策依据,用于企业数据分析;(7)Pig:轻量级分析,流数据处理;(8)Oozie:作业调度系统;(9)Zookeeper:分布式协调一致式服务;原创 2022-09-07 11:09:06 · 2006 阅读 · 0 评论 -
大数据技术原理与应用----大数据概述
①分布式存储;②分布式处理;原创 2022-09-07 10:08:43 · 6176 阅读 · 0 评论 -
【大数据】Hadoop-3.3.4完全分布式安装(包含VMware16和Ubuntu22的下载安装及配置)、搭建、配置教程,以及Hadoop基础简介
注:本篇文章主要涉及到:HDFS(分布式文件系统)、YARN(资源管理和调度框架)、以及MapReduce(离线计算)。以下就是本篇文章所采用的的架构。注:上述的master、slave1、slave2均是主机名(结点名),可以和本篇文章不一致,但下面所有涉及到的地方均需和你这里的主机名一致,如何修改文章后面部分会进行介绍。① NameNode :NameNode是HDFS部分的核心;NameNode又称为Master,储存着HDFS的元数据(即分布式文件系统中所有文件的目录树,并且跟踪追查整个Hadoop原创 2022-09-05 15:47:52 · 13254 阅读 · 38 评论