邵志祥-CSDN博客

原创机器学习数据挖掘统计学深度学习

机器学习：广泛的定义为 “利用经验来改善计算机系统的自身性能。”，事实上，由于“经验”在计算机系统中主要是以数据的形式存在的,因此机器学习需要设法对数据进行分析,这就使得它逐渐成为智能数据分析技术的创新源之一,并且为此而受到越来越多的关注。　　数据挖掘：一种解释是“识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程”，顾名思义，数据挖掘就是试图从海量数据中找出有用的知识。数据挖掘与统计学统计学，搜集、展示、分析及解释数据的科学，统计分不是方法的集合，而是处理数据的...

2021-11-02 22:48:37 296

原创 HDFS的block和切片的区别

图一中的蓝色块代表一个文件，中间的黄色矩形块代表一个 HDFS 块，矩形里面的数字代表 HDFS 块的编号，读整个文件的时候是从编号为0的 HDFS 块开始读，然后依次是1,2,3… 最下面的一行矩形代表文件里面存储的内容，每个小矩形代表一行数据，里面的数字代表数据的编号。红色的竖线代表 HDFS 块边界(block boundary)。当程序读取 Block 0 的时候，虽然第五行数据被分割并被存储在 Block 0 和 Block 1 中，但是，当前程序能够完整的读取到第五行的完整数据...

2021-11-02 22:13:29 84

原创 YARN的工作机制

1. 用户使用客户端向 RM 提交一个任务，同时指定提交到哪个队列和需要多少资源。 2. RM 在收到任务提交的请求后，先根据资源和队列是否满足要求选择一个 NM，通知它启动一个特殊的 container，称为 ApplicationMaster（AM），后续流程由它发起。 3. AM 向 RM 注册后根据自己任务的需要，向 RM 申请 container，包括数量、所需资源量、所在位置等因素。 4. 如果队列有足够资源，RM 会将 container 分配给有足够剩余资源的 NM，由 AM 通知..

2021-11-02 17:43:35 70

原创节点距离计算

1. n1到r1的距离是1，n2到r1的距离是1，n2到r1的距离是1，所以节点距离是2. 2.r2的n0与r3的n2共同祖先是集群d1，n0到d1的距离是2，n2到d1的距离也是2，所以节点的距离也是4.

2021-11-02 00:03:31 115

原创 HDFS读数据流

1.从名称节点获取：该文件有哪些数据块，这些数据块都放在哪里或者说是取哪个节点上的什么数据块。 2.客户端直接从数据节点中以数据流的方式读取数据。 3.关闭这个数据流。

2021-11-01 22:41:38 72

原创 HDFS写数据流程

1.客户端通知名称节点：我要写文件了，确认客户端权限和没有相同的文件后，名称节点创建一个新的文件记录 2.将文件分成一个一个的数据块，通过文件流的方式往数据节点中写数据，写数据时注意是会写冗余数据，冗余数据块的个数默认是3个 3.只有冗余数据块全部写完，数据节点再向客户端发出确认，然后客户端向名称节点发出结束消息，并将文件的块信息存储在名称节点中。 ...

2021-10-31 23:37:11 82

weixin_63518456的博客

原创机器学习数据挖掘统计学深度学习

原创 HDFS的block和切片的区别

原创 YARN的工作机制

原创节点距离计算

原创 HDFS读数据流

原创 HDFS写数据流程

交通灯.ms12

空空如也

原创 机器学习 数据挖掘 统计学 深度学习

原创 HDFS的block和切片的区别

原创 YARN的工作机制

原创 节点距离计算

原创 HDFS读数据流

原创 HDFS写数据流程

交通灯.ms12

空空如也

原创机器学习数据挖掘统计学深度学习

原创节点距离计算