![](https://img-blog.csdnimg.cn/20190918135101160.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据导论作业
大数据导论作业
mxrone
成为更好的人。
展开
-
统计学、机器学习、数据挖掘、深度学习的关系
统计学定义:统计学是关于认识客观现象总体数量特征和数量关系的科学。它是通过搜集、整理、分析统计资料,认识客观现象数量规律性的方法论科学。机器学习定义:机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。数据挖掘定义:数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学原创 2021-10-30 18:51:52 · 4232 阅读 · 0 评论 -
节点距离计算
节点距离=两个节点到达最近的共同祖先的距离总和(1)同一节点,其距离为0;(2)同一机架上的不同节点,其共同祖先为这个机架,而这两个节点的距离都为1,所以这两个节点的距离为1+1=2;(3)同一集群的不同机架上的节点,其共同祖先为集群,而这两个节点要到达集群,首先要到这个机架,然后到达集群,所以这两个节点的距离为2+2=4;(4)在同一数据中心的不同集群上的节点,其共同祖先是数据中心,以此类推,一个节点到数据中心的距离为3,所以两个节点的距离就是3+3=6。 如图: ...原创 2021-10-30 17:43:06 · 230 阅读 · 0 评论 -
HDFS的block和split的区别
1、数据Block:是HDFS物理数据块,一个大文件丢到HDFS上,会被HDFS切分成指定大小的数据块,即Block。2、数据切片:数据切片是逻辑概念,只是程序在输入数据的时候对数据进行标记,不会实际切分磁盘数据。...原创 2021-10-30 16:15:23 · 101 阅读 · 0 评论 -
YARN工作机制
YARN工作机制流程图 ...原创 2021-10-30 16:00:16 · 66 阅读 · 0 评论 -
HDFS读数据流
1、HDFS采用的文件读取模式:一个文件一旦创建、写入、关闭之后就不能修改。(1)其特点:保证数据一致性,同时实现数据访问高吞吐量。2、客户端读取数据流程的过程:(1)客户端通过调用分布式文件系统对象中的Open()函数来读取它所需的数据。(2)DFS会通过RPC协议调用名称节点来确定请求文件所在的位置。DFSInputStream对象是用来管理数据节点和名称节点之间的I/O的。注:名称节点只返回调用文件中开始的几个块而不是全部返回,其返回的数据节点会按照Hadoop定义的集群拓展结构得原创 2021-10-30 11:13:54 · 184 阅读 · 0 评论 -
HDFS写数据流程
1、客户端通过调用,分布式文件系统(DistributedFileSydtem)对像中的Create()创建一个文件。DS通过PRC调用的名称节点的文件系统命名空间创建一个新文件。2、NameNode通过验证,确保请求客户端拥有创建文件权限,新的文件不存在文件系统中。验证通过,名称节点则会创建一个新文件记录。若创建失败,则显示异常。若成功,分布式文件系统返回一个文件系统数据输出流给客户端用来写数据。3、客户端调用FSDataOutputStream的Write()函数,向应对的文件写入数据。4、原创 2021-10-26 21:41:02 · 162 阅读 · 0 评论