- 博客(6)
- 收藏
- 关注
原创 机器学习 数据挖掘 统计学 深度学习
机器学习:广泛的定义为 “利用经验来改善计算机系统的自身性能。”,事实上,由于“经验”在计算机系统中主要是以数据的形式存在的,因此机器学习需要设法对数据进行分析,这就使得它逐渐成为智能数据分析技术的创新源之一,并且为此而受到越来越多的关注。 数据挖掘:一种解释是“识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程”,顾名思义,数据挖掘就是试图从海量数据中找出有用的知识。 数据挖掘与统计学 统计学,搜集、展示、分析及解释数据的科学,统计分不是方法的集合,而是处理数据的...
2021-11-02 22:48:37 296
原创 HDFS的block和切片的区别
图一中的蓝色块代表一个文件, 中间的黄色矩形块代表一个 HDFS 块,矩形里面的数字代表 HDFS 块的编号,读整个文件的时候是从编号为0的 HDFS 块开始读,然后依次是1,2,3… 最下面的一行矩形代表文件里面存储的内容,每个小矩形代表一行数据,里面的数字代表数据的编号。红色的竖线代表 HDFS 块边界(block boundary)。当程序读取 Block 0 的时候,虽然第五行数据被分割并被存储在 Block 0 和 Block 1 中,但是,当前程序能够完整的读取到第五行的完整数据...
2021-11-02 22:13:29 84
原创 YARN的工作机制
1. 用户使用客户端向 RM 提交一个任务,同时指定提交到哪个队列和需要多少资源。 2. RM 在收到任务提交的请求后,先根据资源和队列是否满足要求选择一个 NM,通知它启动一个特殊的 container,称为 ApplicationMaster(AM),后续流程由它发起。 3. AM 向 RM 注册后根据自己任务的需要,向 RM 申请 container,包括数量、所需资源量、所在位置等因素。 4. 如果队列有足够资源,RM 会将 container 分配给有足够剩余资源的 NM,由 AM 通知..
2021-11-02 17:43:35 70
原创 节点距离计算
1. n1到r1的距离是1,n2到r1的距离是1,n2到r1的距离是1,所以节点距离是2. 2.r2的n0与r3的n2共同祖先是集群d1,n0到d1的距离是2,n2到d1的距离也是2,所以节点的距离也是4.
2021-11-02 00:03:31 115
原创 HDFS读数据流
1.从名称节点获取:该文件有哪些数据块,这些数据块都放在哪里或者说是取哪个节点上的什么数据块。 2.客户端直接从数据节点中以数据流的方式读取数据。 3.关闭这个数据流。
2021-11-01 22:41:38 72
原创 HDFS写数据流程
1.客户端通知名称节点:我要写文件了,确认客户端权限和没有相同的文件后,名称节点创建一个新的文件记录 2.将文件分成一个一个的数据块,通过文件流的方式往数据节点中写数据,写数据时注意是会写冗余数据,冗余数据块的个数默认是3个 3.只有冗余数据块全部写完,数据节点再向客户端发出确认,然后客户端向名称节点发出结束消息,并将文件的块信息存储在名称节点中。 ...
2021-10-31 23:37:11 82
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人