![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
叫我小蟹
这个作者很懒,什么都没留下…
展开
-
HDFS原理之---HDFS核心思想和组件架构
1、HDFS核心思想HDFS(Hadoop Distribute FIleSystem) 用来处理海量数据的存储,是hadoop的分布式文件系统。(1)数据存储在集群中的某台机器上,为保证数据安全,需要将这个数据进行物理切块存储,每一块的大小是128M(可根据机器的性能进行修改),将每一块分别存储到三台不同的机器上(三个副本)。(为什么是128M:根据统计,处理完一个文件的效率最优策略是1s,而普通计算机的io是100M左右,计算机的底层又是以二进制的形式存在的,所以默认128M符合大部分机器的处理情原创 2020-08-13 22:17:19 · 600 阅读 · 0 评论 -
hadoop特点与组成
1、hadoop解决两个方面的问题:(1)解决海量数据的存储问题,用到HDFS分布式存储系统,HDFS利用多台机器的存储空间进行存储。(2)解决海量数据的运算问题,用到MapReduce分布式编程框架,MapReduce利用多台机器的运算程序进行运算。2、hadoop组成:(1)HDFS分布式文件系统,对海量数据进行存储;(2)MapReduce分布式运算编程框架;(3)Yarn:资源调度系统和任务监控平台;检验机器的运算资源,并进行合理分配,分布式任务监控;(4)comments:工具,ha原创 2020-08-13 21:16:52 · 1272 阅读 · 0 评论 -
简述企业中web与大数据的关系
基本流程如下:1、页面发送请求给后台后台分为三层:Controller层、Service层、Dao层2、后台返回数据,展示到页面3、埋点埋点位置:页面、Controller层、Service层作用:用于用户分析,收集数据(用户的所有操作–>点击、光标位置、多长时间操作一次等),日志采集;4、日志存放位置:hdfs分布式存储结构中。不能放在mysql中,原因:数据可能不是结构化的,数据量庞大。5、存储流程:(1)数据预处理;(2)分布式运算(MapReduce、Spark、Fli.原创 2020-08-09 22:10:35 · 634 阅读 · 0 评论