自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 统计学,机器学习,数据挖掘和深度学习之间的区别于联系

概念 机器学习:专门研究计算机怎么模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 统计学:通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。 它是人工智能的核心,是使计算机具有智能的根本途径。 数据挖掘:指从...

2021-11-04 23:19:44 949

原创 节点距离计算

节点距离=两个节点到达最近的共同祖先的距离总和 在同一节点上,距离是0 在同一机架上的不同节点(他们的共同祖先是这个机架,而这两个节点到机架的距离都是1),所以这两个节点的距离是1+1=2 在同一个集群的不同集群上的节点,他们的共同祖先是集群,而这两个节点要到达集群,首先要到机架(距离1),然后到达集群(距离2),所以这两个节点的距离是2+2=4 在同一数据中心的不同集群上的节点(它们的共同祖先是数据中心,一个节点到数据中心的距离是3),所以两个节点的距离是3+3=6 ...

2021-11-02 23:25:38 167

原创 YARN的工作机制

作业提交阶段1.​客户端要向整个集群提交job,同事申请job-ID 2. ​resourcemanager收到客户端的请求后,返回资源提交HDFS路径和job-ID 3.​客户端根据resourcemanager的返回数据的值发送jar包,上传计算所需要的资到 指定位置 4. ​客户端提交完资源后向resourcemanager发送执行作业请求,resourcemanager 在接收到请求之后会针对这个job创建一个applicationmanager...

2021-11-02 21:35:04 110

原创 HDFS的Block和切片(split)的区别

1.Block(数据块) 数据被切分后的一个整体称之为块 在Hadoop1中默认大小为64MB,在Hadoop2及其以后默认大小为128MB 同一个文件中,每个数据块大小要一致 (不同文件中,块的大小可以不一致 。 ...

2021-11-02 16:47:54 1478

原创 HDFS读数据流

客户端请求下载文件 NameNode接受请求后看客户端要下载的文件有几个块以及每个块的副本所在的位置,然后返回目标文件的元数据 客户端发现Block1在DateNode1上面后,向DateNode1发送读数据Block1的请求 DateNode1接收请求后把数据传输给客户端 传输完Block1后客户端向DateNode2发送读数据Block2的请求 DateNode2接收后传输数据给客户端 ...

2021-11-01 17:45:19 64

原创 HDFS写数据流程

HDFS写数据流程 首先客户端向NameNode发送请求 NameNode收到请求并检查目录(检查文件所在路径和此文件是否在HDFS上存在) NameNode检查完毕后允许客户端上传 客户端向NameNode发送上传Block1的请求 NameNode查询DateNode是否活跃和空间是否足够的信息,继而筛选 允许客户端上传Block1到DateNode1,DateNode2,DateNode3 然后客户端选择离自己最近的那个DateNode1发送请求 建立一个pipeline 客户端利用

2021-10-26 22:20:38 96

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除