自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 统计学 数据挖掘 机器学习 深度学习之间的关联

1.机器学是建立在统计学习的基础上,统计学是数据分布进行假设,以强大的数学理论支撑解释因果,注重参数推断;统计学是通过搜索,整理,分析,描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它科学的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域。统计数据的整理是对统计数据的加工处理过程,目的是使统计数据系统化,条理化,符合统计分析的需要。数据整理是介于数据收集与数据分析之间的一个必要环节。 2.数据挖掘,顾名思义就是从海量数据中“挖掘”隐藏信息,

2021-11-01 22:11:19 639

原创 YARN的工作机制

YARN是一个资源调度平台,负责为运行程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 YARN通过两类长期运行的守护进程提供自己的核心服务: 1.管理集群上的资源使用资源管理器(resource manager); 2.运行在集群中所有节点上且能够启动和监控容器(container)的节点容器(node manager)。 下面介绍一下YARN的架构以及如何工作: YARN也是典型的Master-Slav...

2021-10-31 18:11:21 210

原创 节点距离计算

图中:Distance(/d1/r1/n0)=0(同一节点上的进程) Distance(/d1/r2/n0,/d1/r3/n2)=4(不同机同一数据中心架上的节点) Distance(/d1/r1/n1,/d1/r1/n2)=2(同一机架上的不同节点) Distance(/d1/r2/n1,/d2/r4/n1)=6(不同数据中心的节点) 节点距离=两个节点到达最近的共同祖先的距离之和 。 1.如图;在同一节点上,它们之间的距离当然是0;2*0=0。 2.在同一机架上的不同节点,...

2021-10-31 16:14:52 182

原创 HDFS读数据流

HDFS采用的文件读取模式是“一个文件一旦创建,写入,关闭之后就不能修改”,保证了数据的一致性,并能够实现大数据访问高吞吐量。 1.客户端通过调用分布式文件系统对象中的Open()函数来读取它所需要的数据。 2.分布式文件系统(Distributed File System) 会通过RPC协议调用名称节点来确定请求文件块所在的位置。这里需要注意的是,名称节点只会返回调用文件中开始的几个块而不是全部返回,这些返回的数据节点会按照Hadoop定义的集群拓...

2021-10-31 15:29:48 121

原创 HDFS写数据流

HDFS是Hadoop大数据生态系统的底层核心提供了大数据分布式存储的支持。HDFS的优点很多,其中的简单的文件模型里的“一次写入多次读取”就是HDFS写数据流时用了这个模式。 这里也说一下,在HDFS中,名称节点(NameNode)负责管理分布式文件系统的命令空间(Name space),保存了两个核心的数据结构Fslamge(元数据镜像)和EditLog(记录了所有针对文件的创立,删除,重命名等操作)。 数据节点(DataNode)...

2021-10-31 14:25:34 162

原创 HDFS 的block和切片(split)的区别

HDFS的block和切片(split)的区别 1.数据块的block: 是HDFS物理数据块,一个大文件丢到HDFS上,会被HDFS切分成指定大小的数据块,即block。 2.数据切片: 数据切片是逻辑概念,只是程序在输入数据的时候对数据进行标记,不会实际切分磁盘数据。 3.split的大少在默认的情况下和HDFS的block切块大少一致,为了是MapReduce处理的时候减少了由于split和block之间大小不一致,可能会完成多余的...

2021-10-31 12:17:04 912

原创 2021-10-26

HDFS写数据的过程 我刚认识HDFS是在学Hadoop的基础上,Hadoop的高可靠性就使用了HDFS分布式文件系统。HDFS是为处理超大数据集的应用处理需求而设计开发的,对高吞吐量大规模文件操作带来了很多便利。HDFS是Hadoop大数据生态系统的底层核心提供了大数据分布式存储的支持。在HDFS的写数据的过程就是利用了HDFS的简单的文件模型“一次写入多次读取”的优点来写入的。 H

2021-10-26 23:53:22 54

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除