大数据导论作业
大数据导论作业
kolx
这个作者很懒,什么都没留下…
展开
-
YARN工作机制
YRNA工作机制 1. 用户使用客户端向 RM 提交一个任务,同时指定提交到哪个队列和需要多少资源。用户可以通过每个计算引擎的对应参数设置,如果没有特别指定,则使用默认设置。 2. RM 在收到任务提交的请求后,先根据资源和队列是否满足要求选择一个 NM,通知它启动一个特殊的 container,称为 ApplicationMaster(AM),后续流程由它发起。 3. AM 向 RM 注册后根据自己任务的需要,向 RM 申请 container,包括数量、所需资源量、所在位置等因素。 4. .原创 2021-11-02 21:22:22 · 109 阅读 · 0 评论 -
节点距离计算
节点距离计算 Distance(d1/r1/n0, d1/r1/n0)=0( 同一机架的同一节点) Distance(d1/r1/n1, d1/r1/n2)=2(同一机架的不同节点) Distance(d1/r2/n0, d1/r3/n2)=4(同一数据中心不同机架上的节点) Distance(d1/r2/n1, d2/r4/n1)=6(不同数据中心的节点) ...原创 2021-11-02 17:42:39 · 150 阅读 · 0 评论 -
HDFS的block和切片(split)的区别
HDFS 的 block 和切片( split )的区别 1.split是 MapReduce 里的概念,是切片的概念, split 是逻辑切片;而 block 是 hdfs 中切块的大小, block 是物理切块。 2.split的大小在默认的情况下和 HDFS 的 block 切块大小一致,为了使MapReduce 处理的时候减少由于 split 和 block 之间大小不一致,可能会完成多余的网络之间的传输。 3.Block:当我们把文件上传到 HDFS 时,文件会被分块,这个是真实物理上的划分。每.原创 2021-11-02 17:10:09 · 970 阅读 · 0 评论 -
HDFS读数据流程
1、客户端通过Distributed FileSystem向NameNode请求下载文件。 2、NameNode通过查询元数据,找到文件块所在的DataNode地址,返回目标文件的元数据。 3、挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。 4、DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校验)。 5、客户端以Packet为单位接收,先在本地缓存,然后写入目标文件。 ...原创 2021-11-02 16:25:41 · 161 阅读 · 0 评论 -
2021-10-30统计学 数据挖掘 机器学习 深度学习
统计学(statistics)是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化分析、总结,做出推断和预测,为相关决策提供依据和参考。 数据挖掘:即data mining,就是从大量的数据中,提取隐藏在其中的,事先不知道的、但潜在有用的信息的过程。数据挖掘的目标是建立一个决策模型,根据过去的行动数据来预测未来的行为。比如分析一家公司的不同用户对公司产品的购买情况,进而分析出哪一类客户会对公司的产品有兴趣。在讲究实时、竞争激烈的网络时代,若能事先破解消费者的行为模式,将是公原创 2021-10-30 21:37:49 · 663 阅读 · 0 评论 -
2021-10-26 HDFS写数据流程
HDFS写数据流程 客户端通过DistributedFileSystem向NameNode请求上传文件,NameNode检查目标文件是否已经存在,父目录是否存在。 NameNode通过验证后,向客户端返回是否可以上传。 如果客户端收到可以上传的回复,则会向NaneNode请求第一个block上传到哪几个datanode服务器上。 namenode返回客户端可用的三个datanode的节点地址,分别为datanode1,datanode2,datanode3。 客户端请求datanode1上传数据,data原创 2021-10-26 21:15:57 · 874 阅读 · 0 评论