![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
Rarity .
这个作者很懒,什么都没留下…
展开
-
统计学机器学习数据挖掘深度学习的比较
大数据 : 又称为巨量资料,指的是在传统数据处理应用软件不足以处理的大或复杂的数据集的术语。大数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言,大数据的出现促成了广泛主题的新颖研究。这也导致了各种大数据统计方法的发展。大数据并没有统计学的抽样方法;它只是观察和追踪发生的事情。因此,大数据通常包含的数据大小超出了传统软件在可接受的时间内处理的能力。由于近期的技术进步,发布新数据的便捷性以及全球大多数政府对高透明度的要求,大数据分析在现代研究中越来越突出。 数据挖掘: 是一个跨学科的计.原创 2021-12-10 16:21:51 · 353 阅读 · 0 评论 -
YARN的工作机制
1. 用户使用客户端向 RM 提交一个任务,同时指定提交到哪个队列和需要多少资源。用户可以通过每个计算引擎的对应参数设置,如果没有特别指定,则使用默认设置。 2. RM 在收到任务提交的请求后,先根据资源和队列是否满足要求选择一个 NM,通知它启动一个特殊的 container,称为 ApplicationMaster(AM),后续流程由它发起。 3. AM 向 RM 注册后根据自己任务的需要,向 RM 申请 container,包括数量、所需资源量、所在位置等因素。 4. 如果队列有足够资源,RM 会将原创 2021-11-03 20:47:03 · 75 阅读 · 0 评论 -
节点距离计算
节点距离:两个节点到达最近的共同祖先的距离总和。原创 2021-11-02 22:33:52 · 65 阅读 · 0 评论 -
HDFS的block和split的区别
HDFS以固定大小的block为基本单位储存数据,而Mapreduce以split作为处理单位。对于文件中的一行记录,可能会划分到不同的block中,也可能划分到不同的split中。 split是逻辑上的概念,它只包含一些元数据信息,比如数据起始位置,数据长度,数据所在节点等,他的划分方法完全由用户自己决定。split的多少决定MapTask的数目,因为每个split交给一个MapTask处理。 ...原创 2021-11-02 22:07:12 · 149 阅读 · 0 评论 -
2021-10-26
HDFS写数据流 1.分布式文件系统会通过PCR调用的名称节点中的文件系统命名空间创建一个新文件。 2.名称节点确定文件之前是否存在,客户端拥有权限时,创建新的文件.反之显示IOException异常。 3.FSDataOutputStream用于写数据。 4.客户端开始写入数据,FSDataOutputStream将数据分成块放入数据队列中,数据流系统由DataStreamer读取,并通知元数据节点分配数据节点,用来储存数据块。分配的数据点放在一个“管道”里。 5.DFSDataOutput..原创 2021-10-26 22:31:32 · 73 阅读 · 0 评论 -
HDFS读数据流程
1.客户端通过调用分布式文件系统对象中的Open()函数来读取它所需要的数据. 2.namenode会视情况返回文件的全部block列表,对于每个block,namenade都会返回有该block拷贝的datanode地址. 3.客户端利用FSDataInputStream的Read()方法开始读数据. 4.读取完当前block的数据后,关闭当前点的Datanode链接,并为读取下一个block寻找最佳的Datanode. 5.当读完列表block后,且文件读取还没有结束,客户端会像Namenode原创 2021-11-02 20:42:54 · 107 阅读 · 0 评论