大数据导论
大数据学习的第一步,加油,奋斗!
oran橙
这个作者很懒,什么都没留下…
展开
-
2021-11-04
1.统计学统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域。(百度百科)起源统计学是一门很古老的科学,它起源于研究社会经济问题,在两千多年的发展过程中,统计学至少经历了“城邦政情”、“政治算数”和“统计分析科学”三个发展阶段。所谓“数理统计”并非独立于统计学的新学科,确切地说,它是统计学在第三个发展阶段所形成的所有收集和分析数据的新方法的一个综合性名词。原创 2021-11-09 20:05:12 · 1824 阅读 · 0 评论 -
2021-10-31
(3)节点距离的计算在HDFS写数据的过程中,NameNode会选择距离待上传数据最近距离的DataNode接收数据。节点距离:两个节点到达最近的共同祖先的距离总和。如图:在 同一节点上,它们之间的距离当然是0,2*0=0 。在 同一机架上的不同节点,它们的共同祖先就是这个机架,而这两个节点到机架的距离都是1,所以这两个节点的距离为1+1=2 。在 同一集群的不同机架上的节点,它们的共同祖先是集群,而这两个节点要到达集群,首先要到这个机架(距离1),然后到达集群(距离2),所以两个节点的距离为2原创 2021-11-03 14:52:44 · 72 阅读 · 0 评论 -
2021-10-31
(4)HDFS的block和切片(split)的区别1.block当我们把文件上传到HDFS时,文件会被分块,这个是真实物理上的划分。每块的大小可以通过hadoop-default.xml里配置选项进行设置。系统也提供默认大小,其中Hadoop 1.x中的默认大小为64M,而Hadoop 2.x中的默认大小为128M。每个Block分别存储在多个DataNode上(默认是3个),用于数据备份进而提供数据容错能力和提高可用性。在很多分布式文件系统中我们都可以看到Block的存在,这种设计的优点是:存储原创 2021-11-03 13:49:35 · 93 阅读 · 0 评论 -
2021-10-26
(1)HDFS写数据流程1.HDFS概述HFDS是Hadoop的核心,是分布式计算中数据储存管理的基础,是建立在大量普通配置的计算机组成的集群上,作为最底层的分布式储存服务支持系统,它解决了大数据存储问题的需求。(大数据技术及应用 李雁翎 )Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS也是Apache Hadoop Core项目的一部分。(百度百科)2.原创 2021-11-03 13:55:47 · 1266 阅读 · 0 评论 -
2021-10-26
(2)HDFS读数据流程原创 2021-11-03 13:43:46 · 54 阅读 · 0 评论 -
2021-10-31
(5)YARN的工作机制YARN是什么Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。(百度百科)YARN的由来adoop1.0中,MapReduce 的 JobTracker 负责了太多的工作,包括资源调度,管理众多的 TaskTracker 等工作.这样的原创 2021-11-03 13:33:51 · 108 阅读 · 0 评论