自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 问答 (2)
  • 收藏
  • 关注

原创 狭义的数据分析与数据挖掘。统计学,机器学习

数据分析:数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。数据挖掘:数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程...

2021-11-03 19:54:29 935

原创 HDFS写数据

1.首先客户端向名称节点(NameNode)请求上传文件2.名称节点管道通过多种验证,确保请求客户端拥有创建文件的权限客户端调用FSDataOutputStream的Write()函数,向对应文件写数据.三个数据节点会形成一个管道,管道中的三个文件都是3.将文件分割成块,向名称节点上传第一个块,请求返回DateNode地址4客户端按照DFSDataInputStream打开和数据节点连接返还的数据流的顺序读取该块,它也会调用名称节点来检查下一组所在的数据节点的位置信息。当完成所有文件...

2021-10-30 16:18:51 84

原创 YARN的工作机制

YARN的工作机制YARN的工作阶段:一.初始化阶段1-4 二.任务分配阶段5-10 三.任务运行阶段11-14 四.作业完成阶段1.客户端向ResourceManager提供job并注册job-id2.返回HDFS返回路径和job-id3.上传计算所需要的资源到...

2021-10-28 23:22:04 89

原创 Block与split的区别

数据block块:是HDFS数据块,一个大文件丢到HDFS上,会被HDFS切分成指定大小的数据块数据切片(split):数据切片是逻辑概念只是程序在输入数据时对数据进行标记,不会实际切分数据eg:假设文件大小为300M,切片大小为100M,block为128M,则第一个block会被切成100M+28M,100M给MapTask,剩余的28M需要网络传输给DataNode2,也就是Namenode2需要切分72M,加上28M才是Datanode2上Maptask上需要的数据,以此类推...

2021-10-28 23:13:39 1335

原创 HDFS读数据

客户通过分布式文件系统对象中Open()函数读取它所需要的数据。 Distributed File System会通过RPC协议调用名称节点来确定请求文件块所在位置 完成以上步骤,开始读取数据 FSDataInputStream连接保存此文件第一个数据块的最近的数据节点并以数据流的形式读取数据;客户端利用FSDataInputStream的Read(),直到到达数据块结束位置 当第一个块读取完毕时,FSDataInputStream会关闭连接,...

2021-10-26 21:52:35 125

原创 网络拓扑——节点距离计算

Distance1(蓝色线)=0(同一节点上不同的进程)Distance2(绿色线)=2(同一机架上的不同节点)Distance3(红色线)=4(同一数据中心不同机架上的节点)Distance4(紫色线)=6(不同数据中心)Line=2

2021-10-26 20:42:13 489

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除