自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_63518484的博客

原创统计学数据挖掘机器学习深度学习之间的关联

1.机器学是建立在统计学习的基础上，统计学是数据分布进行假设，以强大的数学理论支撑解释因果，注重参数推断；统计学是通过搜索，整理，分析，描述数据等手段，以达到推断所测对象的本质，甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它科学的专业知识，其应用范围几乎覆盖了社会科学和自然科学的各个领域。统计数据的整理是对统计数据的加工处理过程，目的是使统计数据系统化，条理化，符合统计分析的需要。数据整理是介于数据收集与数据分析之间的一个必要环节。 2.数据挖掘，顾名思义就是从海量数据中“挖掘”隐藏信息，

2021-11-01 22:11:19 639

原创 YARN的工作机制

YARN是一个资源调度平台，负责为运行程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 YARN通过两类长期运行的守护进程提供自己的核心服务： 1.管理集群上的资源使用资源管理器（resource manager); 2.运行在集群中所有节点上且能够启动和监控容器（container)的节点容器（node manager)。下面介绍一下YARN的架构以及如何工作： YARN也是典型的Master-Slav...

2021-10-31 18:11:21 210

原创节点距离计算

图中：Distance(/d1/r1/n0)=0(同一节点上的进程） Distance(/d1/r2/n0,/d1/r3/n2)=4(不同机同一数据中心架上的节点） Distance(/d1/r1/n1,/d1/r1/n2)=2(同一机架上的不同节点） Distance(/d1/r2/n1,/d2/r4/n1)=6(不同数据中心的节点）节点距离=两个节点到达最近的共同祖先的距离之和。 1.如图；在同一节点上，它们之间的距离当然是0；2*0=0。 2.在同一机架上的不同节点，...

2021-10-31 16:14:52 182

原创 HDFS读数据流

HDFS采用的文件读取模式是“一个文件一旦创建，写入，关闭之后就不能修改”，保证了数据的一致性，并能够实现大数据访问高吞吐量。 1.客户端通过调用分布式文件系统对象中的Open（）函数来读取它所需要的数据。 2.分布式文件系统（Distributed File System) 会通过RPC协议调用名称节点来确定请求文件块所在的位置。这里需要注意的是，名称节点只会返回调用文件中开始的几个块而不是全部返回，这些返回的数据节点会按照Hadoop定义的集群拓...

2021-10-31 15:29:48 121

原创 HDFS写数据流

HDFS是Hadoop大数据生态系统的底层核心提供了大数据分布式存储的支持。HDFS的优点很多，其中的简单的文件模型里的“一次写入多次读取”就是HDFS写数据流时用了这个模式。这里也说一下，在HDFS中，名称节点（NameNode)负责管理分布式文件系统的命令空间（Name space),保存了两个核心的数据结构Fslamge（元数据镜像）和EditLog（记录了所有针对文件的创立，删除，重命名等操作）。数据节点（DataNode)...

2021-10-31 14:25:34 162

原创 HDFS 的block和切片（split)的区别

HDFS的block和切片（split)的区别 1.数据块的block: 是HDFS物理数据块，一个大文件丢到HDFS上，会被HDFS切分成指定大小的数据块，即block。 2.数据切片：数据切片是逻辑概念，只是程序在输入数据的时候对数据进行标记，不会实际切分磁盘数据。 3.split的大少在默认的情况下和HDFS的block切块大少一致，为了是MapReduce处理的时候减少了由于split和block之间大小不一致，可能会完成多余的...

2021-10-31 12:17:04 912

原创 2021-10-26

HDFS写数据的过程我刚认识HDFS是在学Hadoop的基础上，Hadoop的高可靠性就使用了HDFS分布式文件系统。HDFS是为处理超大数据集的应用处理需求而设计开发的，对高吞吐量大规模文件操作带来了很多便利。HDFS是Hadoop大数据生态系统的底层核心提供了大数据分布式存储的支持。在HDFS的写数据的过程就是利用了HDFS的简单的文件模型“一次写入多次读取”的优点来写入的。 H

2021-10-26 23:53:22 54

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除