- 博客(19)
- 收藏
- 关注
原创 统计学,机器学习,数据挖掘和深度学习的区别
1.统计学:与机器学习的任务相似,主要是模型参数推断以及数据拟合或预测。统计学更关心推断或预测的置信度。在研究问题的方法上,统计学会关心统计量服从什么分布,假设检验是否显著,模型拟合是否合理等问题。2.机器学习:更关心模型的预测效果。在研究问题的方法中,关心的是跟提高预测效果直接相关的问题,比如怎样设计模型或目标函数,怎样训练,怎样提高算法效率等。3.数据挖掘:...
2021-11-04 17:10:44 2180
原创 YARN的工作机制
工作机制详解(0)Mr程序提交到客户端所在的节点。(1)Yarnrunner向Resourcemanager申请一个Application。(2)rm将该应用程序的资源路径返回给yarnrunner。(3)该程序将运行所需资源提交到HDFS上。(4)程序资源提交完毕后,申请运行mrAppMaster。(5)RM将用户的请求初始化成一个task。(6)其中一个NodeManager领取...
2021-11-03 01:03:14 86
原创 HDFS的块(block)和切片(split)的区别
1.块的定义:HDFS存储数据在DataNode节点,block就是DataNode里存储数据的一个一个单位。当我们把文件上传到HDFS时,文件会被分块。2.切片的定义:切片是把block切分而成的虚拟上的的定义,是MapReduce里的概念。MapReduce中的map task 开始之前将文件按指定大小切割后的若干个分片其大小与块一样为64mb或者128mb。...
2021-11-03 00:54:05 556
原创 HDFS读数据流程
1.客户端通过Distributed FilleSystem向NameNode请求下载文件,NameNode通过查询元数据,找到文件块所在的DataNode地址。2.挑选一台DataNode服务器,请求读取数据。3.DataNode开始传输数据给客户端。4.客户端以packet为单位接收,先在本地缓存,然后写入目标文件。...
2021-11-02 23:53:52 48
原创 HDFS写数据流程
HDFS写数据流程1.客户端向namenode请求上传文件2.namenode进行检查,是否允许上传3.namenode回馈信息给客户端是否允许上传4.请求上传第一个block块5.namenode判断需要在哪些datanode上上传,返回datanode列表6.客户端先与datanode1建立通道,datanode1与datanode2,datanode2与datanode3建立通道7.响应通道的应答信息8.上传block块,在客户端会形成数据队列,以pakage为单位进行上传9.客户
2021-11-02 22:00:45 59
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人