why0104-CSDN博客

原创统计学，机器学习，数据挖掘和深度学习之间的区别于联系

概念机器学习：专门研究计算机怎么模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。统计学：通过搜索、整理、分析、描述数据等手段，以达到推断所测对象的本质，甚至预测对象未来的一门综合性科学。它是人工智能的核心，是使计算机具有智能的根本途径。数据挖掘：指从...

2021-11-04 23:19:44 949

节点距离=两个节点到达最近的共同祖先的距离总和在同一节点上，距离是0 在同一机架上的不同节点（他们的共同祖先是这个机架，而这两个节点到机架的距离都是1），所以这两个节点的距离是1+1=2 在同一个集群的不同集群上的节点，他们的共同祖先是集群，而这两个节点要到达集群，首先要到机架（距离1），然后到达集群（距离2），所以这两个节点的距离是2+2=4 在同一数据中心的不同集群上的节点（它们的共同祖先是数据中心，一个节点到数据中心的距离是3），所以两个节点的距离是3+3=6 ...

2021-11-02 23:25:38 167

原创 YARN的工作机制

作业提交阶段1.客户端要向整个集群提交job，同事申请job-ID 2. resourcemanager收到客户端的请求后，返回资源提交HDFS路径和job-ID 3.客户端根据resourcemanager的返回数据的值发送jar包，上传计算所需要的资到指定位置 4. 客户端提交完资源后向resourcemanager发送执行作业请求，resourcemanager 在接收到请求之后会针对这个job创建一个applicationmanager...

2021-11-02 21:35:04 110

原创 HDFS的Block和切片（split）的区别

1.Block（数据块）数据被切分后的一个整体称之为块在Hadoop1中默认大小为64MB，在Hadoop2及其以后默认大小为128MB 同一个文件中，每个数据块大小要一致（不同文件中，块的大小可以不一致。 ...

2021-11-02 16:47:54 1478

原创 HDFS读数据流

客户端请求下载文件 NameNode接受请求后看客户端要下载的文件有几个块以及每个块的副本所在的位置，然后返回目标文件的元数据客户端发现Block1在DateNode1上面后，向DateNode1发送读数据Block1的请求 DateNode1接收请求后把数据传输给客户端传输完Block1后客户端向DateNode2发送读数据Block2的请求 DateNode2接收后传输数据给客户端 ...

2021-11-01 17:45:19 64

原创 HDFS写数据流程

HDFS写数据流程首先客户端向NameNode发送请求 NameNode收到请求并检查目录（检查文件所在路径和此文件是否在HDFS上存在） NameNode检查完毕后允许客户端上传客户端向NameNode发送上传Block1的请求 NameNode查询DateNode是否活跃和空间是否足够的信息，继而筛选允许客户端上传Block1到DateNode1,DateNode2,DateNode3 然后客户端选择离自己最近的那个DateNode1发送请求建立一个pipeline 客户端利用

2021-10-26 22:20:38 96

why0104的博客

原创统计学，机器学习，数据挖掘和深度学习之间的区别于联系

原创节点距离计算

原创 YARN的工作机制

原创 HDFS的Block和切片（split）的区别

原创 HDFS读数据流

原创 HDFS写数据流程

空空如也

空空如也

原创 统计学，机器学习，数据挖掘和深度学习之间的区别于联系

原创 节点距离计算

原创 YARN的工作机制

原创 HDFS的Block和切片（split）的区别

原创 HDFS读数据流

原创 HDFS写数据流程

空空如也

空空如也

原创统计学，机器学习，数据挖掘和深度学习之间的区别于联系

原创节点距离计算