大数据导论作业
大数据导论作业
辰眻毣轶
这个作者很懒,什么都没留下…
展开
-
狭义的数据分析与数据挖掘。统计学,机器学习
数据分析:数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。数据挖掘:数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程...原创 2021-11-03 19:54:29 · 1002 阅读 · 0 评论 -
HDFS写数据
1.首先客户端向名称节点(NameNode)请求上传文件2.名称节点管道通过多种验证,确保请求客户端拥有创建文件的权限客户端调用FSDataOutputStream的Write()函数,向对应文件写数据.三个数据节点会形成一个管道,管道中的三个文件都是3.将文件分割成块,向名称节点上传第一个块,请求返回DateNode地址4客户端按照DFSDataInputStream打开和数据节点连接返还的数据流的顺序读取该块,它也会调用名称节点来检查下一组所在的数据节点的位置信息。当完成所有文件...原创 2021-10-30 16:18:51 · 100 阅读 · 0 评论 -
HDFS读数据
客户通过分布式文件系统对象中Open()函数读取它所需要的数据。 Distributed File System会通过RPC协议调用名称节点来确定请求文件块所在位置 完成以上步骤,开始读取数据 FSDataInputStream连接保存此文件第一个数据块的最近的数据节点并以数据流的形式读取数据;客户端利用FSDataInputStream的Read(),直到到达数据块结束位置 当第一个块读取完毕时,FSDataInputStream会关闭连接,...原创 2021-10-26 21:52:35 · 137 阅读 · 0 评论 -
YARN的工作机制
YARN的工作机制YARN的工作阶段:一.初始化阶段1-4 二.任务分配阶段5-10 三.任务运行阶段11-14 四.作业完成阶段1.客户端向ResourceManager提供job并注册job-id2.返回HDFS返回路径和job-id3.上传计算所需要的资源到...原创 2021-10-28 23:22:04 · 104 阅读 · 0 评论 -
Block与split的区别
数据block块:是HDFS数据块,一个大文件丢到HDFS上,会被HDFS切分成指定大小的数据块数据切片(split):数据切片是逻辑概念只是程序在输入数据时对数据进行标记,不会实际切分数据eg:假设文件大小为300M,切片大小为100M,block为128M,则第一个block会被切成100M+28M,100M给MapTask,剩余的28M需要网络传输给DataNode2,也就是Namenode2需要切分72M,加上28M才是Datanode2上Maptask上需要的数据,以此类推...原创 2021-10-28 23:13:39 · 1359 阅读 · 0 评论 -
网络拓扑——节点距离计算
Distance1(蓝色线)=0(同一节点上不同的进程)Distance2(绿色线)=2(同一机架上的不同节点)Distance3(红色线)=4(同一数据中心不同机架上的节点)Distance4(紫色线)=6(不同数据中心)Line=2原创 2021-10-26 20:42:13 · 526 阅读 · 0 评论