
Hadoop
文章平均质量分 94
大数据是Java程序员的下一个风口
程序猿进阶
要做就做第一,就算结果不是第一,也会是一个好成绩。 加油!我的未来不是梦。
展开
-
YARN 的优化与实践
YARN (Yet Another Resource Negotiator) 是 Hadoop 集群的资源管理系统,是 Hadoop 生态中非常重要的成员项目。【1】最底层是裸金属层, 由众多物理节点组成,每个节点上运行着通用的操作系统。【2】次底层是集群资源管理层, YARN 就处在这一层中。【3】再往上是分布式计算引擎层, MR/Spark/Flink 等计算引擎处于这层,为了能让业务同学更加低成本的写计算任务, 各个引擎都支持 SQL 功能。原创 2024-06-13 05:00:00 · 1794 阅读 · 43 评论 -
YARN 组织架构
Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 mapreduce等运算程序则相当于运行于操作系统之上的应用程序。【1】Yarn并不清楚用户提交的程序的运行机制;【2】Yarn只提供运算资源的调度(用户程序向 Yarn申请资源,Yarn就负责分配资源);【3】Yarn中的主管角色叫;【4】Yarn中具体提供运算资源的角色叫;原创 2024-06-12 05:00:00 · 1577 阅读 · 41 评论 -
HDFS 读写数据流程
客户端开始往 dn1上传第一个Block(先从磁盘读取数据放到一个本地内存缓存),以 Packet为单位,dn1收到一个 Packet就会传给 dn2,dn2传给 dn3;利用这种标记,这里给出四种距离描述,如上图所示:大家算一算每两个节点之间的距离:每一个线表示1,例如 11 到 4距离为3。对于常见情况,当复制因子为3时,HDFS的放置策略是将一个副本放在本地机架中的一个节点上,另一个放在本地机架中的另一个节点上,最后一个放在不同机架中的另一个节点上。【3】第三个副本位于不同机架,随机节点。原创 2024-06-11 05:30:00 · 8659 阅读 · 65 评论 -
NameNode 和 SecondaryNameNode
由于 Edits中记录的操作会越来越多,Edits文件会越来越大,导致 NameNode在启动加载 Edits时会很慢,所以需要对 Edits和Fsimage进行合并(所谓合并,就是将 Edits和 Fsimage加载到内存中,照着 Edits中的操作一步步执行,最终形成新的Fsimage)。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦 NameNode节点断电,就会产生数据丢失。因此,元数据需要存放在内存中。原创 2024-06-10 05:30:00 · 1490 阅读 · 105 评论 -
HDFS 之 DataNode 核心知识点
(2)删除原来HDFS文件系统留存的文件( /opt/module/hadoop-2.7.2/data和 logs ),否则会出现hadoop2与hadoop3相互出现在集群中,因为两者的数据是相同的。添加主机名称(要退役的节点)【1】一个数据块在 DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。原创 2024-06-07 05:00:00 · 3237 阅读 · 75 评论 -
HDFS 组织架构
随着数据量越来越多,一个系统存储不下所有的数据,那么就需要分配到多个操作系统的磁盘中进行存储,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统的一种。HDFS(Hadoop Distributed File System)分布式文件系统,用于存储文件,通过目录树来定位文件,其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。适合一次写入,多次读出的场景,且不支持文件的修改。原创 2024-05-23 05:00:00 · 7546 阅读 · 92 评论 -
Hadoop 安装及目录结构
【1】 各个服务组件逐一启动/停止#分别启动/停止HDFS组件#启动/停止YARN【2】各个模块分开启动/停止(配置ssh是前提)#整体启动/停止HDFS start-dfs.sh/stop-dfs.sh #整体启动/停止YARN start-yarn.sh/stop-yarn.sh。原创 2024-05-22 05:00:00 · 4788 阅读 · 83 评论 -
踏入大数据的第一天,我先入入门
【转行原因】目前数据每天已亿计算,作为 Java程序员的我已经无法使用常规工具对数据进行捕捉、管理和处理这些数据集合。MySQL的存储容量也只有500-1000行数据。而且数据每天还在告诉增长,还不带重样的。还有就是跟着党走,我要搞新基建。所以我来了,我来了,我踏着七彩祥云走来了…按顺序给出存储单位:bit、Byte、KB、MB、GB、TB、PB、ZB、YB、BB、NB、DB。大数据主要是干嘛的:海量数据的存储和海量数据的分析计算问题。en…我是刚入门,不要骂我菜…原创 2024-05-20 05:00:00 · 5059 阅读 · 84 评论