- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 统计学,机器学习,数据挖掘,深度学习的意思和联系
1.统计学:统计学是概率数学模型,将所要观察的数据进行收集在进行量化分析然后汇总,作出判断和预测,为相关决策提供依据和参照。2.机器学习 :机器学习是用相应的算法让计算机用已知的数据得到相应的模型,并利用该模型对新的情境做出判断的过程。它是对人类学习能力的一个模仿,让计算机像人一样思考和推理的能力。机器学习中最关键的是数据,因为需要数据的训练算法。任何通过数据训练的学习算法的相关研究都属于机器学习。3.数据挖掘; 数据挖掘顾名思义就是从大量的数据中挖出哪些隐藏的,但又有用的数据。4. 深度学习.
2021-11-04 21:58:37
378
原创 节点距离计算
1.同一机架的同一节点是距离是02.同一机架的不同节点,n1,n2的共同祖先是r1,n1到r1的距离是1,n2到r1的距离是1,所以节点距离就是23.同一数据中心不同机架上的节点,r2的n0与r3的n2共同祖先是集群d1,n0到d1的距离是2,n2到d1的距离也是2,所以节点距离就是44.不同数据中心的节点,共同祖先是数据中心的父亲,所以节点距离是3+3=6...
2021-10-29 22:41:43
116
原创 HDFS写数据流
#FSDataInputStream封装了DFSInputStream大部分的HDFS程序对文件操作采用的是“一次写多次读取”的模式。1.HDFS客户端先向DFSInputStream发起创建文件请求,创建输出流。DFSInputStream对想象中的Create()函数创建一个文件。2.DistributedFileSystem输出流要执行RPC远程调用名称节点,让名称节点在文件系统空间中创建一个新文件。但名称节点不会直接创建一个新的文件,名称节点先要观察所要创建的文件是否已存在,还要观...
2021-10-29 21:41:24
200
原创 YARN的工作机制
(1)客户端提交应用程序到资源管理器。 (2) 资源管理器分配用于运行ApplicationMaster的Container,然后与NodeManager通信,要求它在该Container中启动ApplicationMaster。(3)ApplicationMaster向资源管理器注册并请求运行应用程序各个Task所需的Conta...
2021-10-29 16:44:04
131
原创 HDFS的block和切片(split)的区别
#hadoop1.x是默认每个块大小64GB,而hadoop2.x默认每个块大小128GB。系统默认3个快。定义(1);block; HDFS存储数据在DataNode节点,block就是DataNode里存储数据的一个一个单位。当我们把文件上传到HDFS时,文件会被分块,这个是真实物理上的定义。因为,读磁盘需要时间,随机读会造成查找目录的时间比真正读出磁盘内容的时间占比过大。读取当前数据时候,很大可能会读取前后附近的数据。所以直接读出一大片数据,一整块数据读到内存里只要查找目录一次,还高...
2021-10-27 22:35:48
572
2
原创 HDFS读数据流
HDFS读数据流(1)客户端NameNode请求上传文件,NameNode检查目标文件是否已存在。(2)NameNode返回是否可以上传。(3)客户端请求第一个 Block上传到哪几个DataNode服务器上。(4)NameNode返回2个DataNode节点,分别为dn1、dn2。(5)客户端通过FSDataOutputStream模块请求dn1上传数据,DN1收到请求会继续调用DN2。将 通信管道建立完成。(6)DN2应答->DN1->应答客户端。(7)当一个B.
2021-10-26 20:35:57
601
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人